ROC曲线原理实例分析 【1】

在选择诊断试验时,许多研究者会在灵敏度和特异度之间进行艰难的取舍。那么,是否可以综合考虑灵敏度和特异度的特点,根据一个指标评价诊断试验的准确性呢?受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),用来描述诊断试验的内在真实程度,应用十分广泛。
ROC曲线是以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的。每一个点都对应诊断试验的一个截点,我们将这些可能的点连接起来即可制作出经验ROC曲线(empirical ROC curve)。该方法可以帮助研究者简单、直观地分析诊断试验的临床准确性,选择更加合适的截点。

一、背景介绍

在介绍ROC曲线之前,首先来介绍一下预测模型的背景。

(一)预测模型建模流程简介

1.利用数据中的训练集进行模拟的生成。

2.利用测试集进行模型的评测。

3.将评测的结果反馈给生成模型。

4.若评测结果比较满意,进行生成模型的输出,否则重新生成。

那么测试集如何评测预测模型?这里引出混淆矩阵的概念。

(二)混淆矩阵

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,常用来预测模型的准确率。

image

图1 混淆矩阵

P:样本中的正例,n:样本中的负例 Y:通过模型预测出来样本中的正列,N:通过模型预测出来样本中的负列 TP(True Positives):本来是正列,通过模型预测出来也是正列FP(False Positives):本来是负列,通过模型预测出来也是正列预测模型准确率accuracy=(TP+TN)/(P+n)(三)案例分析
表1 原始数据

image

从表1可以看出,有20个观测值,结局有1和0两种状态,分别代表着阳性和阴性。类似于Logistic回归当中某个人是否患疾病,患病为1,不患病为0。预测概率是通过Logistic回归预测的结果。那怎么去预测这组概率的准确率呢?

首先将这组数据的预测概率按照从大到小的顺序进行排列。一般的二分类的实现方法就是选择一个阈值,将大于这个阈值的样本认为是正例,小于这个阈值的样本认为是反例。如果以0.54为阈值,将预测概率0.54设置为阳性,预测概率小于0.54设置为阴性。 表2 以0.54为阈值的预测结局
image

从表2中可以看出前6个数据预测结局为阳性,其他14个数据预测结局为阴性。计算它的混淆矩阵如表3,真实结局中有10个1和10个0。但是预测结局的阳性数有6个,其中有5个是真实阳性,有1个是真实阴性。第三个观测值结局本来是阴性的,但预测结局是阳性的,这个观测值预测错误。同理,预测结局的阴性数有14个,其中有9个是真实阴性,有5个是真实阳性。第九个观测值结局本来是阳性的,但预测结局是阴性的,这个观测值预测错误。

表3 混淆矩阵表

image

真阳率是指本来是阳性的,预测出的结果也是阳性的。假阳率是指本来是阴性的,但预测出的结果是阳性的。从表3中可以看出,在真实阳性数这一竖列中,预测正确的观测值有5个,所以真阳率(TPR)=5/P=5/10=0.5。在真实阴性数这一竖列中,预测正确的观测值有1个,所以假阳率(FPR)=1/n=1/10=0.1。

同理真阴率(TNR)=9/10=0.1,假阴率(FNR)=5/10=0.5。

表4 真阳率和假阳率

image

从表4可以看出,以0.54为阈值,作出来的混淆矩阵真阳率为0.5,假阳率为0.1。真阳率和假阳率是以每一次相应的预测概率为阈值,算出混淆矩阵而得到的。

将1-20每个样本的评分均作为分类器的判定阈值,可以得到20组TPR和FPR的有序数对。然后以TPR和FPR为两个坐标轴建立一个直角坐标系,就可以得到图2。

image

图2 TPR和FPR的有序数对

二、ROC曲线概念

ROC曲线:受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。

采用真阳性率和假阳性率作出的曲线,适用于诊断试验结果为连续变量。试验的真阳性率(Sen)为纵坐标(Y),假阳性率(1-Spe)为横坐标(X),坐标轴上的率值由01或0%100%。

image

图3 ROC曲线示意图横轴FPR:1-TPR,1-Specificity,FPR越大,预测正类中实际负类越多。纵轴TPR:Sensitivity,TPR越大,预测正类中实际正类越多。理想目标:TPR=1,TPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45°对角线越好,Sensitivity、Specificity越大效果越好。

三、最佳阈值的确定——约登指数

约登指数(Youden index,YI):是评价筛查试验真实性的方法,假设其假阴性和假阳性的危害性同等意义时,即可应用约登指数。约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1。指数越大说明筛查试验的效果越好,真实性越大。从表中可以看出,真阳率与假阳率的差值就是约登指数,最大的约登指数为0.4,0.4对应的预测概率为0.54,大于0.54认为是阳性的,小于0.54认为是阴性的。0.54就是最佳阈值。

四、AUC概念

AUC(Area Under Curve)值为ROC曲线下方的面积大小。显然,AUC越大,预测效果越好。AUC=1,是完美分类器,采用这个预测模型时,不管设定什么截断点都能得出完美预测。绝大多数预测的场合,不存在完美分类器。0.5<AUC<1,优于随机猜测。这个预测模型妥善设定截断点的话,能有预测价值。AUC=0.5,跟随机猜测一样(例:抛硬币),模型没有预测价值。AUC<0.5,比随机猜测还差,但只要总是反预测而行,就优于随机预测。

image

图4 包含AUC值的ROC曲线

[参考资料](https://mp.weixin.qq.com/s?src=11&timestamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE7Bq3d1cN-XspGn-EV2gqpTVgaS2q1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容