ROC曲线和 AUC 直白详解

ROC曲线

定义

在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，
或者叫ROC曲线）是一种坐标图式的分析工具，
用于
(1) 选择最佳的信号侦测模型、舍弃次佳的模型。
(2) 在同一模型中设定最佳阈值。

这里我们只要记得 ROC曲线 主要是用来确定一个模型的阈值。
同时在一定程度上也可以衡量这个模型的好坏

理解
既然我们想要直白来理解 ROC曲线，那么例子是肯定少不了的：
假设1：感冒有三种特征，咳嗽，发烧，流鼻涕。

假设2：如果想确定一个人是否得了感冒，
可以根据三种特征来打分，
每个特征可以打 0-1 分。
打分越高，
得感冒概率越高。

假设3：现在你是一个医生，
有100个病人来看病，
你需要根据这些人的三个感冒特征给他们打分，
得到如下一组数据 (编号，分数)：
```
(1,2)  (2,2.4)  (2,0.4)....(100,3)
```
假设4：我是一个神医，
能百分百确定别人是否得了感冒。
然后我看了你的报告，
并给每个数据都给了确定的答案，
其中感冒60人，正常40人，
这一步骤主要是模拟实际生产数据中的真实 lab 值。
所以数据就变成了（编号，是否真感冒，分数）
```
(1,0,2)  (2,1,2.4)  (2,0,0.4).... (100,1,3)
```
好了，现在问题来了，
你是给每个病人打分了，
也知道分数越高得感冒得概率越高，
但是，到底得没得感冒却没有一个标准，
这个标准就是上面说的阈值，
所以接下来就是要想办法确定这个阈值或者标准了，
那么我们采用办法呢？
对于这种 二分类 问题的阈值，
就是我们 ROC 曲线大展身手的时候了。
ROC 曲线和阈值
- 阈值比较小的时候：
  如果我们认为打 1 分以上的就是感冒患者，
  那么只要有一点症状就可以确诊为感冒了，
  这时候100个人，确诊感冒的可能有 80 人，
  但是实际呢？
  可能80个人中只有50个是真感冒的。
  如下图：
阈值=1 诊断感冒诊断正常合计

真感冒 60 0 60

真正常 20 20 40

合计 80 20 100

我们可以发现被你诊断为感冒的患者中，
有 60 个是真的患者，
还有 20 个正常也被你诊断成了感冒。
- 阈值比较大的时候：
  如果我们认为打 2 分以上的才是感冒患者，
  这时候100个人，
  确诊感冒的可能有 20 人，
  但是实际呢？
  真正感冒的可是60人，
  你只确诊20个，
  如下图：
  
  阈值=2 诊断感冒诊断正常合计
  
  真感冒 20 40 60
  
  真正常 0 40 40
  
  合计 20 80 100
  
  我们可以发现，诊断为感冒的20人，每一个都是真正的患者，
  但是同时，一些特征可能不是很明显的真正患者也被你误诊为了正常
- 什么是合适的阈值
  我们期望的是阈值不大不小，
  换句话理解就是，
  我们希望得到一个使得如果是患者，那就一定要诊断为患者，
  而如果你不是患者，我也不能把你误诊成患者，
  那么将这个想法用公式表示出来就是：
  $真阳率 = \frac{诊断感冒正确的人数}{真感冒人数}$
  $假阳率 = \frac{诊断感冒错误的人数}{正常的人数}$
  
  这里我们引入了真阳率和假阳率，
  其定义如下：
  真阳率：预测为真，并且预测正确占所有真样本的比例
  假阳率：预测为真，但是预测错误占所有非真样本的比例
  
  这里很明显，我们的真就是患者，非真就是正常人
  
  所以合适的阈值就是：使得真阳率趋于 1，并且假阳率趋于 0。
- 寻找合适的阈值
  所以我们一点点改变阈值，
  就可以得到一组又一组的 真阳率和假阳率 ，
  将这一组组 真阳率和假阳率在坐标轴上表示出来，
  就是我们要的 ROC曲线，
  通过图形化，我们就可以很直观的看到他们的变化了。
  这个图只是随便在网上找的，
  可不是这个列子的图噢，
  我们大概看下 ROC曲线的样子就好了
  
  roc.png
  
  其中 x 轴表示假阳率，y 轴表示真阳率，
  可以发现假阳率和真阳率是成正相关的，
  也就是说我们其实基本不可能找到一个阈值，
  使得 真阳率=1 而 假阳率=0,
  如果出现这种情况，
  那么这个曲线的经过（0,1）点，
  这个图就是一个正方形了。

阈值=1	诊断感冒	诊断正常	合计
真感冒	60	0	60
真正常	20	20	40
合计	80	20	100

阈值=2	诊断感冒	诊断正常	合计
真感冒	20	40	60
真正常	0	40	40
合计	20	80	100

好了，到这里我想对 ROC曲线你应该有一个比较感观的认识了，
其实这个算法也是很符合我们的常识的，
也告诉我们，看似高大上的一些算法，
其实真的就是源于生活的点点滴滴。

这里再补充一点：
我一直说的都是从预测为感冒这个角度来阐述，
这也是二分类的一个好处，
我们只要想明白了一个角度，
另外一个角度就是一个 1 - x 的问题了

AUC

定义
1. ROC曲线与横轴围城的曲边形的面积
2. 将所有样本根据算法模型预测的打分进行升序排列，
  随机挑选一正一负两个样本，
  负样本排在正样本前面的概率
只是看文字好像不是很好理解，
可以结合上面那个例子来看一看就好理解了，
我们给所有来看病的人都有打分，
按照打分给他们排个序，
然后随机挑选一个真得感冒和一个真正常的人，
看一下是不是真正常的人排在前面，
如果是，那么计数为1，
进行 N 次实验，
所有计数的累计和为 n，
那么 n/N 就是AUC的值了，
顺便提一下，最理想的情况就是 n = N了，
也意味着我们的打分已经完美

定义有两种，但是他们应该如何进行理解互通呢？
笔者目前也不是很清楚，尝试推理了下，
也不是很明白，这里就不敢班门弄斧了，
如果有大佬理解，请不吝赐教！！！非常感谢！！！
这里如果有感谢兴趣的朋友，也可以查看下这篇博客，
应该是我找到的比较有深度的 auc 的计算了

为什么需要 AUC
前面我们说了 ROC曲线可以用来给一个模型确定阈值，
那么 AUC 则是来评判一个二分类的模型的优劣。
如果 AUC = 1:完美预测，基本不会存在的情况。
如果 0.5 < AUC < 1：除了完美预测，那就乘这个区间的最有价值了。
如果 AUC = 0.5：因为是二分类，随机猜测也就是这个概率了，完全就没有价值
如果 AUC < 0.5：比随机猜测的概率还低！！！但是反过来说，非黑即白，如果取个反呢？

总的来说，不考虑最后一种情况，
AUC当然是越大越好，
如果是最后一致情况，那当然是越小越好，
因为我一旦取反，那么就和第一种情况一样啦。

这里还补充一点，
关于我们预测分类为什么不直接用准确度，
$准确度=\frac{预测正确的样本数}{ 预测的样本数}$
我们可以想象一下，对于一些有偏的数据，
比如中彩票的概率如果是万分之一，
那么我要预测中没中彩票，
只要都预测为不中，
那我的准确率不是有 99.99%？
看数据是不是很好，但是实际是不是很废？
用 ROC 和 AUC 来评判就是可以很好的避免这个问题了，
具体你可以自己算算这个列子的 ROC 曲线就可以理解了。

AUC 计算
首先还是这篇博客。

其次，我想说的是，写AUC的博客那么多，
为什么没人将工作中的计算方法说上来呢？
所以这里我就贴一个工作中计算方式：

1.首先我们计算AUC肯定得有一份打完分了的数据，假设数据auc.text,内容如下：
```
-1    0.12
-1    0.13
-1    0.16 
1     0.2
-1    0.21
-1    0.23
1     0.3
-1    0.32
-1    0.35
1     0.4
-1    0.42
-1    0.46
1     0.5
-1    0.51
-1    0.53
1     0.7
1     1.1
1     1.2
1     1.2
```
1. 计算方法
  cat auc.text |sort -k2n|awk '($1==-1){++x;a+=y}($1==1){++y}END{print 1.0-a/(x*y)}'
  通过一个简单的 awk 就可以得出来了，
  至于这个公式得原理，也很简单，
  就是完全遵循我们定义中的第二种方式得来的，
  推理过程就不啰嗦了，
  大致解释下：
  1. x 表示所有负样本数，y表示正样本数
  2. 所以 x * y 就是对所有正负做一次 AUC 实验，可以做 x*y 这么多次
  3. 因为是排序的，所以每当在负样本上面找到一个正样本，
    那么实验错误的次数就得累计一次
  4. 所以 y 其实也就记录了，当前这个负样本上面有多少个正样本，
    那么就有多少次预测错误，
  5. 所以 a 记录的就是预测错误的值
  6. 所以 1- (a/x*y) 就是 AUC

我不知道我解释的有没有让你明白....
但是我只能说到这里了....
好了，本文到此就结束啦！谢谢你的阅读！！！

如果觉的本文对你有帮助...可否奢求你一个认可的赞呢？？

最后编辑于：2019.08.23 10:41:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343

ROC曲线 和 AUC 直白详解

ROC曲线

AUC

如果觉的本文对你有帮助...可否奢求你一个认可的 赞 呢 ？？

推荐阅读更多精彩内容

ROC曲线和 AUC 直白详解

如果觉的本文对你有帮助...可否奢求你一个认可的赞呢？？