欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 会展 > 数据挖掘——模型的评价

数据挖掘——模型的评价

2025/1/6 6:12:21 来源：https://blog.csdn.net/m0_74259787/article/details/144891464 浏览: 次关键词：数据挖掘——模型的评价

数据挖掘——模型的评价

模型的评价
- 混淆矩阵
- ROC曲线
- - 如何构建ROC曲线
- 模型过分拟合和拟合不足
- 减少泛化误差

模型的评价

混淆矩阵

在这里插入图片描述
准确率= $\frac{a+d}{a+b+c+d}$ = $\frac{TP+TN}{TP+TN+FP+FN}$

其他度量：
在这里插入图片描述
查全率VS查准率

地震的预测:对于地震的预测，我们希望的是recall非常高，也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲precision。情愿发出1000次警报，把10次地震都预测正确了，也不要预测100次，对了8次，漏了2次。
嫌疑人定罪:基于不错怪一个好人的原则，对于嫌疑人的定罪我们希望是非常准确的（precision高），及时有时候放过了一些罪犯（recall低），但也是值得的。

F1 score: $F_1=\frac{2rp}{r+p}$
r表示召回率（recall），p表示精确率（precision）

ROC曲线

接收者操作特征曲线（ReceiverOperating Characteristic Curve，或者叫ROC曲线）是一种坐标图式的分析工具，用于

选择最佳的分类模型、舍弃次佳的模型。
在同一模型中设定最佳阈值。

给定一个二元分类模型和它的阈值，就能从所有样本的(阳性／阴性)真实值和预测值计算出一个 (X=FPR,Y=TPR)坐标点。
在这里插入图片描述

(FPR,TPR):

(0,0):任何分类都是阴性
(1,1):任何分类都是阳性
(0,1):理想分类

对角线:

随机猜测结果
对角线以下：预测结果与真实结果相反

ROC曲线下方面积：AUC
ideal：Area=1
Random guess：Area=0.5

在这里插入图片描述

如何构建ROC曲线

首先利用分类器计算每个数据记录的后验概率P(+|A)

将这些数据记录对应的P(+|A)从高到低排列：

由低到高, 对于每个P(+|A)值（threshold，阈值），把对应的记录以及那些值高于或等于阈值指派为阳性类positive, 把那些值低于阈值指派为阴性类negative
统计 TP,FP,TN,FN
计算TPR=TP/(TP+FN)和FPR=FP/(FP+TN)

绘出诸点(FPR,TPR)并连接它们

模型过分拟合和拟合不足

分类模型的误差大致分为两种：

训练误差：是在训练记录上误分类样本比例
泛化误差：是模型在未知记录上的期望误差

一个好的分类模型不仅要能够很好的拟合训练数据，而且对未知样本也要能准确分类。

换句话说，一个好的分类模型必须具有低训练误差和低泛化误差。

当训练数据拟合太好的模型（较低训练误差），其泛化误差可能比具有较高训练误差的模型高，这种情况成为模型过分拟合

根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。

由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然细化模型就会产生过分拟合。
在这里插入图片描述

减少泛化误差

过分拟合的主要原因一直是个争辩的话题，但数据挖掘研究界普遍认为模型的复杂度对模型的过分拟合有影响。

如何确定正确的模型复杂度？理想的复杂度是能产生最低泛化误差的模型的复杂度。

奥卡姆剃刀定律：在解释一个现象或问题时，应当尽量简洁地使用最少的假设。

根据奥卡姆剃刀原则

引入惩罚项，使较简单的模型比复杂的模型更可取
- 引入正则项
- 神经网络中，引入dropout机制

在这里插入图片描述
使用验证集

该方法中，不是用训练集估计泛化误差，而是把原始的训练数据集分为两个较小的子集，一个子集用于训练，而另一个称为验证集，用于估计泛化误差。

该方法为评估模型在未知样本上的性能提供了较好办法。
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

【C++】B2099 矩阵交换行默认ip无法访问，利用dhcp功能获取ip进行访问的方法《Android最全面试题-Offer直通车》目录爱死机第四季（秘密关卡）4KHDR国语字幕在DJI无人机上运行VINS-FUISON（PSDK 转 ROS）【面试AI算法题中的知识点】方向涉及：ML/DL/CV/NLP/大数据...本篇介绍Tensor RT 的优化流程。