常用的评价指标:accuracy、precision、recall、f1-score、ROC-AUC、PR-AUC

预测(横)
实际(纵)
+ -
+ tp fn
- fp tn
  • 准确率(Accuracy)
    accuracy=\frac{tp+tn}{tp+fp+tn+fn}
    accuracy是最常见也是最基本的评价指标。但是,在二分类且正负样本不平衡的情况下,尤其是对于较少数样本类感兴趣时,accuracy基本无参考价值。如欺诈检测、癌症检测等,100个样例中,99个负例,1个正例。模型将任意样本都分为负例,accuracy值为0.99。但是,拿这个模型去检测新样本,一个正例也分不出来。

  • 精确率(Precision)、召回率(Recall)
    precision=\frac{tp}{tp+fp},recall=\frac{tp}{tp+fn}
    precision是相对于模型预测而言的,可以理解为模型做出新预测时的自信度得分是多少或做出这个预测是对的可能性是多少。自信度。
    recall是相对于真实标签而言的,可以理解为模型预测出的正例占实际正例的比例。覆盖率。
    如果模型很贪婪,想要覆盖更多的样本,那么它就有可能会犯错。这个时候的recall值常很高,precision常很低。如果模型很保守,只对很确定的样本做出预测,则precision值常很高,recall值常很低。我们可以选择只看我们感兴趣的样本类,也就是较少数样本类的precision和recall来评价模型的好坏。
    疾病检测、反垃圾等,是在保证精确率的条件下提升召回率;搜索等是在保证召回率的情况下提升精确率。

  • F1值(F1-score)
    f1-score=\frac{2}{\frac{1}{P}+\frac{1}{R}}=\frac{2PR}{P+R}
    F1值是个综合考虑precision值和recall值的指标。
    多类别分类时,有宏平均(macro-average)和微平均(micro-average)两种。
    宏平均是指先对每个类别单独计算F1值。取这些值的算术平均值作为全局指标。这种方式平等地对待每个类别,所以其值主要受稀有类别的影响,更能体现模型在稀有类别上的表现。
    微平均是指先累加各个类别的tp、fp、tn、fn值,再由这些值来计算F1值。这种方式平等地对待每个样本,所以其值主要受到常见类别的影响。

  • ROC-AUC
    \begin{aligned}sensitivity&=recall=true\ positive\ rate\\ &=\frac{tp}{tp+fn}\\ &=P(\hat{y}=1|y=1)\end{aligned}
    \begin{aligned}specifity&=1-false\ positive\ rate\\ &=\frac{tn}{fp+tn}\\ &=P(\hat{y}=0|y=0)\end{aligned}
    无论y的真实概率是多少,都不会影响sensitivity和specificity。也就是说,这两个指标是不会受到不平衡数据的影响的。而precision=P(y=1|\hat{y}=1)是会受到数据集中正负比例的影响的。
    ROC曲线(Receiver Operating Characteristic Curve)是一个以fpr为x轴,tpr为y轴,取不同的score threshold画出来的。
    基本上,ROC曲线下面积即AUC越大,或者说曲线越接近于左上角(fpr=0, tpr=1),那么模型的分类效果就越好。一般来说,最优score threshold就是ROC曲线离y=x基准线最远的一点或者说是ROC曲线离左上角最近的一点对应的阈值,再或者是根据用户自定义的cost function来决定的。
    AUC就是从所有正例样本中随机选择出一个样本,在所有负例样本中随机选择出一个样本,使用分类器进行预测。将正例样本预测为正的概率记作P_1,将负例样本预测为负的概率记作P_0P_1>P_0的概率就等于AUC值。因此,AUC反映的是分类器对于样本的排序能力。根据这个解释,如果我们完全随机地对样本进行分类,那么AUC应该接近于0.5。另外,AUC值对于样本类别是否均衡并不敏感,这也是不均衡样本通常使用AUC评价分类器性能的一个原因。通常使用AUC的目的,一是为了比较不同模型性能的好坏,二是为了找到得到最佳指标值的那个阈值点。

  • PR-AUC
    PR曲线,是以P为y轴,以R为x轴,取不同的概率阈值得到不同的(p,r)点后画成的线。
    为了解决P、R、F-Measure(即\frac{1}{\lambda \frac{1}{P}+(1-\lambda)\frac{1}{R}})的单点局限性,得到一个能够反映全局的指标,使用PR-AUC/AP。同样地,PR-AUC值越大,或者说曲线越接近右上角(p=1, r=1),那么模型就越理想、越好。
    AP=\int_0^1 p(r)d(r)

    • AAP(Approximated Average Precision)
      AAP将PR-AUC面积分割成不同的长方形然后求面积和。
      AAP=\sum_{k=1}^{N}p(k)\Delta r(k)
    • IAP(Interpolated Average Precision)
      如果存在r'>r且p'>p,使用p'代替p参与面积计算。AAP会比IAP离实际的PR-AUC更近,面积也会小点。
      PASCAL VOC中使用IAP作为AP值,认为这一方法能够有效地减少PR曲线中的抖动。然后对于多类别进行AP取平均操作后得mAP值。

算法倾向如果是“宁可错杀一千,不可放过一个”,可以设定在合理的precision值下,最高的recall值作为最优点,找到这个点对应的阈值。总之,我们可以根据具体的应用或者是偏好,在曲线上找到最优的点,去调整模型的阈值,从而得到一个符合具体应用的模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342