ROC曲线 和 AUC 直白详解

ROC曲线

  • 定义

信号检测理论中,接收者操作特征曲线receiver operating characteristic curve
或者叫ROC曲线)是一种坐标图式的分析工具,
用于
(1) 选择最佳的信号侦测模型、舍弃次佳的模型。
(2) 在同一模型中设定最佳阈值。

这里我们只要记得 ROC曲线 主要是用来确定一个模型的 阈值。
同时在一定程度上也可以衡量这个模型的好坏

  • 理解
    既然我们想要直白来理解 ROC曲线,那么例子是肯定少不了的:
    假设1:感冒有三种特征,咳嗽,发烧,流鼻涕。

    假设2:如果想确定一个人是否得了感冒,
    可以根据三种特征来打分,
    每个特征可以打 0-1 分。
    打分越高,
    得感冒概率越高。

    假设3:现在你是一个医生,
    有100个病人来看病,
    你需要根据这些人的三个感冒特征给他们打分,
    得到如下一组数据 (编号,分数)

    (1,2)  (2,2.4)  (2,0.4)....(100,3)
    

    假设4:我是一个神医,
    能百分百确定别人是否得了感冒。
    然后我看了你的报告,
    并给每个数据都给了确定的答案,
    其中感冒60人,正常40人,
    这一步骤主要是模拟实际生产数据中的真实 lab 值。
    所以数据就变成了(编号,是否真感冒,分数)

    (1,0,2)  (2,1,2.4)  (2,0,0.4).... (100,1,3)
    

    好了,现在问题来了,
    你是给每个病人打分了,
    也知道分数越高得感冒得概率越高,
    但是,到底得没得感冒却没有一个标准,
    这个标准就是上面说的 阈值
    所以接下来就是要想办法确定这个 阈值或者标准了,
    那么我们采用办法呢?
    对于这种 二分类 问题的阈值,
    就是我们 ROC 曲线大展身手的时候了。

  • ROC 曲线 和 阈值

    • 阈值比较小的时候:
      如果我们认为打 1 分以上的就是感冒患者,
      那么只要有一点症状就可以确诊为感冒了,
      这时候100个人,确诊感冒的可能有 80 人,
      但是实际呢?
      可能80个人中只有50个是真感冒的。
      如下图:
    阈值=1 诊断感冒 诊断正常 合计
    真感冒 60 0 60
    真正常 20 20 40
    合计 80 20 100

    我们可以发现被你诊断为 感冒的 患者中,
    有 60 个是 真的患者,
    还有 20 个 正常 也被你诊断成了 感冒。

    • 阈值比较大的时候:
      如果我们认为打 2 分以上的才是感冒患者,
      这时候100个人,
      确诊感冒的可能有 20 人,
      但是实际呢?
      真正感冒的可是60人,
      你只确诊20个,
      如下图:

      阈值=2 诊断感冒 诊断正常 合计
      真感冒 20 40 60
      真正常 0 40 40
      合计 20 80 100

      我们可以发现,诊断为感冒的20人,每一个都是真正的患者,
      但是同时,一些特征可能不是很明显的真正患者也被你误诊为了正常

    • 什么是合适的阈值
      我们期望的是阈值不大不小,
      换句话理解就是,
      我们希望得到一个使得 如果是患者,那就一定要诊断为患者,
      而如果你不是患者,我也不能把你误诊成患者,
      那么将这个想法用公式表示出来就是:
      真阳率 = \frac{诊断感冒正确的人数}{真感冒人数}
      假阳率 = \frac{诊断感冒错误的人数}{正常的人数}

      这里我们引入了真阳率 和 假阳率
      其定义如下:
      真阳率:预测为真,并且预测正确 占 所有真样本的 比例
      假阳率:预测为真,但是预测错误 占 所有非真样本的 比例

      这里很明显,我们的 真 就是 患者,非真 就是 正常 人

      所以合适的阈值就是:使得 真阳率 趋于 1,并且 假阳率 趋于 0。

    • 寻找合适的阈值
      所以我们一点点改变阈值,
      就可以得到一组又一组的 真阳率 和 假阳率
      将这一组组 真阳率 和 假阳率在坐标轴上表示出来,
      就是我们要的 ROC曲线,
      通过图形化,我们就可以很直观的看到他们的变化了。
      这个图只是随便在网上找的,
      可不是这个列子的图噢,
      我们大概看下 ROC曲线的 样子就好了

      roc.png

      其中 x 轴表示 假阳率,y 轴表示 真阳率,
      可以发现 假阳率 和 真阳率 是成正相关的,
      也就是说我们其实基本不可能找到一个 阈值,
      使得 真阳率=1假阳率=0,
      如果出现这种情况,
      那么这个曲线的经过(0,1)点,
      这个图就是一个正方形了。

好了,到这里我想对 ROC曲线 你应该有一个比较感观的认识了,
其实这个算法也是很符合我们的常识的,
也告诉我们,看似高大上的一些算法,
其实真的就是源于生活的点点滴滴。

这里再补充一点:
我一直说的都是从 预测为感冒 这个角度来阐述,
这也是二分类的一个好处,
我们只要想明白了一个角度,
另外一个角度就是一个 1 - x 的问题了

AUC

  • 定义

    1. ROC曲线 与 横轴 围城的曲边形的面积
    2. 将所有样本根据算法模型预测的打分进行升序排列,
      随机挑选一正一负两个样本,
      负样本排在正样本前面的概率

    只是看文字好像不是很好理解,
    可以结合上面那个例子来看一看就好理解了,
    我们给所有来看病的人都有打分,
    按照打分给他们排个序,
    然后随机挑选一个真得感冒 和 一个 真正常的人,
    看一下是不是真正常的人排在前面,
    如果是,那么计数为1,
    进行 N 次实验,
    所有计数的累计和 为 n,
    那么 n/N 就是AUC的值了,
    顺便提一下,最理想的情况就是 n = N了,
    也意味着我们的打分已经完美

定义有两种,但是他们应该如何进行理解互通呢?
笔者目前也不是很清楚,尝试推理了下,
也不是很明白,这里就不敢班门弄斧了,
如果有大佬理解,请不吝赐教!!!非常感谢!!!
这里如果有感谢兴趣的朋友,也可以查看下 这篇博客
应该是我找到的比较有深度的 auc 的计算了

  • 为什么需要 AUC
    前面我们说了 ROC曲线 可以用来给一个模型确定阈值,
    那么 AUC 则是来评判一个 二分类的 模型的优劣。
    如果 AUC = 1:完美预测,基本不会存在的情况。
    如果 0.5 < AUC < 1:除了完美预测,那就乘这个区间的最有价值了。
    如果 AUC = 0.5:因为是二分类,随机猜测也就是这个概率了,完全就没有价值
    如果 AUC < 0.5:比随机猜测的概率还低!!!但是反过来说,非黑即白,如果取个反呢?

总的来说,不考虑最后一种情况,
AUC当然是越大 越好,
如果是最后一致情况,那当然是越小越好,
因为我一旦取反,那么就和第一种情况一样啦。

这里还补充一点,
关于我们预测分类为什么不直接用 准确度,
准确度=\frac{预测正确的样本数}{ 预测的样本数}
我们可以想象一下,对于一些有偏的数据,
比如中彩票的概率如果是 万分之一,
那么我要预测中没中彩票,
只要都预测为不中,
那我的准确率不是有 99.99%?
看数据是不是很好,但是实际是不是很废?
用 ROC 和 AUC 来评判就是可以很好的避免这个问题了,
具体你可以自己算算这个列子的 ROC 曲线就可以理解了。

  • AUC 计算
    首先还是这篇博客

    其次,我想说的是,写AUC的博客那么多,
    为什么没人将工作中的计算方法说上来呢?
    所以这里我就贴一个工作中计算方式:

    1.首先我们计算AUC肯定得有一份打完分了的数据,假设数据auc.text,内容如下:

    -1    0.12
    -1    0.13
    -1    0.16 
    1     0.2
    -1    0.21
    -1    0.23
    1     0.3
    -1    0.32
    -1    0.35
    1     0.4
    -1    0.42
    -1    0.46
    1     0.5
    -1    0.51
    -1    0.53
    1     0.7
    1     1.1
    1     1.2
    1     1.2
    
    1. 计算方法
      cat auc.text |sort -k2n|awk '($1==-1){++x;a+=y}($1==1){++y}END{print 1.0-a/(x*y)}'
      通过一个简单的 awk 就可以得出来了,
      至于这个公式得原理,也很简单,
      就是完全遵循我们定义中的第二种方式得来的,
      推理过程就不啰嗦了,
      大致解释下:

      1. x 表示所有负样本数,y表示 正样本数
      2. 所以 x * y 就是对所有正负做一次 AUC 实验,可以做 x*y 这么多次
      3. 因为是排序的,所以每当在 负样本上面找到一个正样本,
        那么实验错误的次数就得累计一次
      4. 所以 y 其实也就记录了,当前这个负样本上面 有多少个 正样本,
        那么就有多少次预测错误,
      5. 所以 a 记录的就是预测错误的值
      6. 所以 1- (a/x*y) 就是 AUC

我不知道我解释的有没有让你明白....
但是我只能说到这里了....
好了,本文到此就结束啦!谢谢你的阅读!!!

如果觉的本文对你有帮助...可否奢求你一个认可的 赞 呢 ??

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容