首先模型预测后的数据包括这几种情况:
TP(True Positive):实际为正例,被预测为正例,预测正确
FP(False Positive):实际为负例,被预测为正例,预测错误
FN(False Negative):实际为正例,被预测为负例,预测错误
TN(True Negative):实际为负例,被预测为负例,预测正确
评价指标
(1)Precision,精确率:P=TP/(TP+FP)
(2)Recall,召回率:R=TP/(TP+FN)
(3)F-Score,即precision和recall的调和平均值,更接近precision和recall中较小的那一个值:
F=(2*P*R)/(P+R)
(4)Accuracy,分类器对整体样本的分类能力,也就是正例分为正例,负例分为负例的概率
A=(TP+TN)/(TP+FP+TN+FN)
(5)ROC(Receiver Operating Characteristic),主要用于画ROC曲线(横坐标为FPR,纵坐标为TPR)
FPR=FP/(FP+TN),也就是负例被错误预测为正例的数目占总负例的比例
TPR=TP/(TP+FN),也就是被正确预测的正例占总正例的比例
ROC曲线中的几个关键点:
(FPR=0,TPR=0):将全部正例分为负例,全部负例分为负例
(FPR=0,TPR=1):将全部正例分为正例,全部负例为负例,即全部划分正确
(FPR=1,TPR=1):将全部负例分为正例,所有的数据都分为正例
由此可见,ROC曲线越靠近左上角,说明分类器的效果越好。
(6)AUC(Area Under ROC Curve)
AUC的值就是处于ROC曲线下方的那部分面积的大小。通常,AUC的值介于0.5到1之间。AUC的值越大代表的模型就越好。一个完美的模型AUC=1