机器学习：常用模型评估指标

在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。

一、分类模型评估指标：

1、混淆矩阵（Confusion Matrix）
2、正确率/准确率（Accuracy）
3、错误率（Error rate）
4、精确率/查准率（Precision）
5、召回率/查全率（Recall）
6、PR曲线（Precision Recall Curve）和 F1-score
7、ROC曲线（Receiver Operating Characteristic）和 AUC（Area Under Curve）

二、目标检测评估指标：

1、IoU（Intersection over Union）
2、mAP（mean Average Precision）

一、分类模型评估指标

1、混淆矩阵（Confusion Matrix）

混淆矩阵也称为误差矩阵，是表示精度评价的一种标准格式，用 $n \times n$ 的矩阵形式来表示。

最常见的二元分类，它的混淆矩阵是一个 $2 \times 2$ 表，用来衡量一个分类器分类的准确程度。

二元混淆矩阵

混淆矩阵中 TP、TN、FP、FN 四个值代表的含义：

真正(True Positive，TP)：被模型预测为正的正样本。
真负(True Negative , TN)：被模型预测为负的负样本。
假正(False Positive, FP)：被模型预测为正的负样本。
假负(False Negative , FN)：被模型预测为负的正样本。

其中，第一个字母表示本次预测的正确性，T就是正确，F就是错误；第二个字母则表示由分类器预测的类别，P代表预测为正例，N代表预测为反例。

真正率(True Positive Rate，TPR)：被预测为正的正样本数/正样本实际数，TPR=TP/(TP+FN)。或称灵敏度（Sensitivity），或称召回率。
真负率(True Negative Rate，TNR)：被预测为负的负样本数/负样本实际数，TNR=TN/(FP+TN)。或称特异度（Specificity）。
假正率(False Positive Rate，FPR)：被预测为正的负样本数/负样本实际数，FPR=FP/(FP+TN)。
假负率(False Negative Rate，FNR)：被预测为负的正样本数/正样本实际数，FNR=FN/(TP+FN)。

2、正确率/准确率（Accuracy）

准确率(Accuracy)：所有被正确预测占总数的比例。
$Accuracy=\frac{TP+TN}{TP+FP+TN+FN}$

3、错误率（Error rate）

错误率：所有被错误预测占总数的比例。
$错误率 = \frac{FP+FN}{TP+FP+TN+FN}$
正确率和错误率是分别从正反两方面进行评价的指标，两者数值相加刚好等于1。正确率越高，错误率就越低；正确率越低，错误率就越高。

4、精确率/查准率（Precision）

精确率(Precision)：也叫查准率，是指在所有被预测为正的样本中，确实是正样本的占比。
$Precision=\frac{TP}{TP+FP}$

5、召回率/查全率（Recall）

召回率(Recall)：也叫查全率，是指在所有确实为正的样本中，被预测为正样本的占比。
$Recall=\frac{TP}{TP+FN}$
Recall等价于灵敏度Sensitivity和真正率TPR。

6、PR曲线（Precision Recall Curve）和 F1-score

然而，Precision和Recall是一对矛盾的度量，高精度往往对应低召回率。为了综合评价整体结果，我们以查准率为 $y$ 轴，以查全率为 $x$ 轴，构成了PR曲线(PRC对样本不均衡敏感)，如下图所示：

PR曲线

PRC能直观地显示学习器在样本总体上的查全率和查准率，显然它是一条总体趋势递减的曲线。不同的学习器进行比较时，查准率和查全率能取得双高，说明其性能更优。因此，若一个学习区的PR曲线被另一个学习器的PR曲线完全包住，则可断言后者的性能优于前者，比如上图中的A优于C。但是B和A谁更好呢？AB曲线交叉了，所以很难比较，这时候比较合理的判据就是比较PR曲线下的面积，该指标在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。因为这个值(面积)不容易度量，所以人们引入了“平衡点(Break-Even Point，BEP)”来度量，它表示“查准率=查全率”时的取值，值越大表明性能越好，以此我们可以一下子判断A比B性能好。

另一种更常用的度量方法是 F1-score 度量，它被定义为精确率和召回率的调和平均数：
${F_1}=\frac{2}{\frac{1}{P} + \frac{1}{R}}=\frac{2PR}{P+R}$
$F_1$ 值是综合考虑精确率和召回率的一个指标。在 $F_1$ 值中，精确率和召回率是同等重要的，权重 $R_{weight}=P_{weight}=0.5$ 。

但面对有些实际场景，本身就要求更重视精确率或更重视召回率的情况，该如何处理呢？比如地震预测，我们希望Recall非常高，希望每次地震都能被预测出来，这时候我们可以牺牲Precision。情愿发出1000次预测，把10次地震都预测正确了；也不要预测100次，对了8次漏了两次。所以我们可以设定在合理的Precision下，最高的Recall作为最优点，找到这个对应的threshold点。
于是我们引入 $F_β$ 分数的定义：
${F_β}=\frac{1}{\frac{P_{weight}}{P}+\frac{R_{weight}}{R}}$
令 $β^2=\frac{R_{weight}}{P_{weight}},R_{weight}+P_{weight}=1$ ，上式可化简为：
${F_β}=(β^2+1)\frac{PR}{β^2P+R}$
其中 $β$ 为正数，其作用是调整精确度和召回率的权重。 $β$ 越大，召回率的权重更大； $β$ 越小，则精确度的权重更大。当 $β=1$ 时为 $F_1$ 值，此时精确度和召回率权值均为 $0.5$ ，即：

$β=1$ ，查全率的权重=查准率的权重=0.5，即为 $F_1$ 分数。
$β>1$ ，查全率的权重>查准率的权重。
$β<1$ ，查全率的权重<查准率的权重。

7、ROC曲线（Receiver Operating Characteristic）和 AUC（Area Under Curve）

ROC全称是“受试者工作特征”（Receiver Operating Characteristic）曲线，ROC曲线以“真正率”(TPR)为 $y$ 轴，以“假正率”(FPR)为 $x$ 轴，对角线对应“随机猜测模型”，而 $(0,1)$ 则对应“理想模型”。如下图所示：

ROC曲线

其中， $TPR=\frac{TP}{TP+FN},FPR=\frac{FP}{FP+TN}$ 。

在对学习器进行比较时，与PR曲线类似，若一个学习器的ROC曲线被另一个学习器的曲线完全包住，则我们可以断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以比较两者的性能。此时我们可以比较ROC曲线下的面积，即AUC(Area Under Curve)，面积大的曲线对应的性能更好。
当 $TPR=1,FPR=0$ 时，为理想模型，此时AUC为1。但现实生活中AUC一般介于0.5到1之间，AUC越高，说明模型的区分能力越好。若AUC=0.5，此时模型的区分能力与随机猜测没有区别。若AUC<0.5，请检查一下好坏标签是否标反了，或者是模型真的很差。

PRC和ROC在模型性能评估上效果差不多，但如果样本的正负分布极不均衡，应以PRC为评估指标。PRC对于样本不均衡敏感，能够更有效地反应分类器的好快；而ROC的AUC可能看不出好坏。

二、目标检测评估指标

目标检测问题：给定一个图像，找到其中的目标以及位置，并且对目标进行分类。

目标检测

1、IoU(Intersection over Union)

IoU(Intersection over Union，交并比)是一种测量在特定数据集中检测相应物体标准度的一个标准。是目标检测任务中常用的评价指标。
IoU的定义，预测框与标注框的交集与并集之比：

IoU

IoU的值越大说明检测性能越好，当IoU=1时，说明预测框与目标框完全一致。下图中 0.4037<0.7330<0.9264，他们的预测效果依次增强。

2、mAP(mean Average Precision)

AP(Average Precision，平均精度)是PR曲线围成的面积，用来衡量对一个类检测的好坏。
mAP(mean Average Precision，均值平均精度)是各类别AP的平均值，衡量对多个类的目标检测好坏。

mAP是目标检测中最常用的测评指标。

最后编辑于：2021.06.01 14:47:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343