Precision,Recall,F1-score
首先介绍precision,recall,f1-score三个概念。
对于二值分类器(positive与negative),用下图表示classifying的结果以及以上三个指标的计算公式。
ROC曲线,AUC
一般二值分类器的输出是对每个测试样本是正向分类positive的概率,在判别正负时会选定一个临界值,低于这个值的样本都是负样本,高于这个值的样本都是正样本,再与样本的实际属性,也就是标签做对比计算,得出真阳性率TPR(True Positive Rate)和伪阳性率FPR(False Positive Rate)
TPR = TP/(TP+FN)
FPR = FP/(FP+TN)
如果有N个样本,按照模型输出的概率排序,那我们最多能得到N组TPR,FPR的数据,就能绘出ROC曲线。
样本越多,ROC曲线就会越光滑。
AUC即是ROC的曲线积分,即多边形的面积。
一般来说AUC值在0.5到1之间,越接近1,说明模型越好;
ROC曲线越接近上图的红线,说明模型越没效果(跟随机瞎猜很相近);
ROC在红线下面,就应该检查是不是标签贴反了,或者是模型真的很差。