ROC曲线原理实例分析【1】

在选择诊断试验时，许多研究者会在灵敏度和特异度之间进行艰难的取舍。那么，是否可以综合考虑灵敏度和特异度的特点，根据一个指标评价诊断试验的准确性呢？受试者工作特征曲线（receiver operating characteristic curve，简称ROC曲线），用来描述诊断试验的内在真实程度，应用十分广泛。
ROC曲线是以真阳性率（灵敏度）为纵坐标，假阳性率（1-特异度）为横坐标绘制的。每一个点都对应诊断试验的一个截点，我们将这些可能的点连接起来即可制作出经验ROC曲线（empirical ROC curve）。该方法可以帮助研究者简单、直观地分析诊断试验的临床准确性，选择更加合适的截点。

一、背景介绍

在介绍ROC曲线之前，首先来介绍一下预测模型的背景。

（一）预测模型建模流程简介

1.利用数据中的训练集进行模拟的生成。

2.利用测试集进行模型的评测。

3.将评测的结果反馈给生成模型。

4.若评测结果比较满意，进行生成模型的输出，否则重新生成。

那么测试集如何评测预测模型？这里引出混淆矩阵的概念。

（二）混淆矩阵

混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，常用来预测模型的准确率。

image

图1 混淆矩阵

P：样本中的正例，n：样本中的负例 Y：通过模型预测出来样本中的正列，N：通过模型预测出来样本中的负列 TP(True Positives)：本来是正列，通过模型预测出来也是正列FP(False Positives)：本来是负列，通过模型预测出来也是正列预测模型准确率accuracy=(TP+TN)/(P+n)（三）案例分析
表1 原始数据

image

从表1可以看出，有20个观测值，结局有1和0两种状态，分别代表着阳性和阴性。类似于Logistic回归当中某个人是否患疾病，患病为1，不患病为0。预测概率是通过Logistic回归预测的结果。那怎么去预测这组概率的准确率呢？

首先将这组数据的预测概率按照从大到小的顺序进行排列。一般的二分类的实现方法就是选择一个阈值，将大于这个阈值的样本认为是正例，小于这个阈值的样本认为是反例。如果以0.54为阈值，将预测概率0.54设置为阳性，预测概率小于0.54设置为阴性。表2 以0.54为阈值的预测结局

image

从表2中可以看出前6个数据预测结局为阳性，其他14个数据预测结局为阴性。计算它的混淆矩阵如表3，真实结局中有10个1和10个0。但是预测结局的阳性数有6个，其中有5个是真实阳性，有1个是真实阴性。第三个观测值结局本来是阴性的，但预测结局是阳性的，这个观测值预测错误。同理，预测结局的阴性数有14个，其中有9个是真实阴性，有5个是真实阳性。第九个观测值结局本来是阳性的，但预测结局是阴性的，这个观测值预测错误。

表3 混淆矩阵表

image

真阳率是指本来是阳性的，预测出的结果也是阳性的。假阳率是指本来是阴性的，但预测出的结果是阳性的。从表3中可以看出，在真实阳性数这一竖列中，预测正确的观测值有5个，所以真阳率(TPR)=5/P=5/10=0.5。在真实阴性数这一竖列中，预测正确的观测值有1个，所以假阳率(FPR)=1/n=1/10=0.1。

同理真阴率(TNR)=9/10=0.1，假阴率(FNR)=5/10=0.5。

表4 真阳率和假阳率

image

从表4可以看出，以0.54为阈值，作出来的混淆矩阵真阳率为0.5，假阳率为0.1。真阳率和假阳率是以每一次相应的预测概率为阈值，算出混淆矩阵而得到的。

将1-20每个样本的评分均作为分类器的判定阈值，可以得到20组TPR和FPR的有序数对。然后以TPR和FPR为两个坐标轴建立一个直角坐标系，就可以得到图2。

image

图2 TPR和FPR的有序数对

二、ROC曲线概念

ROC曲线：受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)，又称为感受性曲线(sensitivity curve)。

采用真阳性率和假阳性率作出的曲线，适用于诊断试验结果为连续变量。试验的真阳性率（Sen）为纵坐标（Y），假阳性率（1-Spe）为横坐标（X），坐标轴上的率值由0_1或0%100%。

image

图3 ROC曲线示意图横轴FPR：1-TPR，1-Specificity，FPR越大，预测正类中实际负类越多。纵轴TPR：Sensitivity，TPR越大，预测正类中实际正类越多。理想目标：TPR=1，TPR=0，即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45°对角线越好，Sensitivity、Specificity越大效果越好。

三、最佳阈值的确定——约登指数

约登指数（Youden index，YI）：是评价筛查试验真实性的方法，假设其假阴性和假阳性的危害性同等意义时，即可应用约登指数。约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1。指数越大说明筛查试验的效果越好，真实性越大。从表中可以看出，真阳率与假阳率的差值就是约登指数，最大的约登指数为0.4，0.4对应的预测概率为0.54，大于0.54认为是阳性的，小于0.54认为是阴性的。0.54就是最佳阈值。

四、AUC概念

AUC(Area Under Curve)值为ROC曲线下方的面积大小。显然，AUC越大，预测效果越好。AUC=1，是完美分类器，采用这个预测模型时，不管设定什么截断点都能得出完美预测。绝大多数预测的场合，不存在完美分类器。0.5<AUC<1，优于随机猜测。这个预测模型妥善设定截断点的话，能有预测价值。AUC=0.5，跟随机猜测一样（例：抛硬币），模型没有预测价值。AUC<0.5，比随机猜测还差，但只要总是反预测而行，就优于随机预测。

image

图4 包含AUC值的ROC曲线

[参考资料]（https://mp.weixin.qq.com/s?src=11&timestamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE7Bq3d1cN-XspGn-EV2gqpTVgaS2q1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1
）

最后编辑于：2020.03.18 20:43:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

ROC曲线原理实例分析 【1】

推荐阅读更多精彩内容

ROC曲线原理实例分析【1】