理解分类器的指标,指标设计与权衡

一、单个分类器指标评价


P = TP + FN 正样本总数

N = FP + TN 负样本总数

FPR = FP/N 负样本中被误判为正样本的样本数/ 负样本总数 (负样本误判率,虚警率)

TPR = TP/P 正样本中被正确分类样本数/ 正样本总数(正样本正确率,召回率,检测概率)


Accuracy = (TP+TN)/(P+N) 正确分类的总样本数/总样本数 (正确率)


Recall = TPR 正样本正确率

Precision = TP/(TP+FP) 正确分类的正样本数/被判为正样本的总数


ROC

TPR为纵轴, FPR为横轴

检测概率,虚警率工作特性曲线

理解四个点和一条线

(0,1) FPR =0 所有负样本都被正确分类,没有误判为正样本的情况;TPR = 1所有正样本都被正确分类。综上,所有正确样本都被正确分类,理想分类器

(1,0)所有负样本都被误判为正样本,所有正样本都被误判为负样本。综上,所有样本都被误判,最差分类器。

(0,0)所有负样本都被判为负样本,所有正样本也都被判为负样本。综上,所有样本都被判为负样本,属于一边倒,倒向负样本。

(1,1)所有样本被判为正样本,一边倒向正样本。

y = x对角线  如其中一点FPR = 0.1, TPR = 0.1 负样本有10%被误判为正样本,正样本有90%被误判为负样本。再如 FPR = 0.5, TPR = 0.5 正负样本正确率和错误率均为50%,属于等概率随机猜测分类器。

为什么使用ROC曲线

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

它比precision-recall曲线面对正负样本不均衡时指标更稳定

如何得到ROC曲线

设置不同的判决阈值(正负样本的打分值,可以是概率,比如认为打分值大于0.6认为是正样本),得到一簇分类器,计算每个分类器的TPR,TFR,把这些点连起来就得到了ROC曲线阈值取得越细,ROC曲线越平滑。

指标的权衡

从以上分析可以看出,上分类器的模型选择上,我们希望优化的目标有两个,一个目标是使FPR尽可能小,一个目标是使TPR尽可能大。有点类似于GPS接收机设计里的虚警率与检测概率的权衡,一般我们会设定一个虚警率指标值(一般比较小,比如≤1%),然后去优化检测概率,使检测概率最大,由此得到一系列接收机的技术参数。 这两个参数不能同时被优化,是一对矛盾。为什么是一对矛盾?因为阈值设置的越低,检测概率越高,但是虚警率也会升高(分类器会误把噪声也当做信号来看待)。相反,阈值设置的越高,虚警率越低(噪声越不易被误判),但是检测概率也会降低(会扣掉被噪声干扰的弱信号的判决)。


二、不同分类器的比较

AUC

用来比较不同分类的好坏

AUC是ROC曲线的积分,取值一般在0.5~1之间,认为AUC值越大,分类器越好。

AUC值为0.5表示随机猜测

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容