风险建模中的申请评分卡(A卡)实质是一种分类模型,常见的模型是逻辑回归(Logistic Regression model,LR)模型。分类模型常见的评测指标有以下几种:
序号 | 中文 | 英文 | 简称 |
---|---|---|---|
1 | 混淆矩阵 | Confusion Matrix | CM |
2 | 受试者工作特征曲线 | Receivr Operating Characteristic Curve | ROC曲线 |
3 | 曲线下面积 | Area Under Curve | AUC指数 |
4 | 洛伦兹曲线 | Kolmogorov-Smirnov | KS曲线 |
5 | 基尼系数 | Gini Coefficient | GINI系数 |
6 | 增益图 | Gain Chart | Gain曲线 |
7 | 提升图 | Lift Chart | Lift曲线 |
8 | 标准误差 | Root Mean Squared Error | RMSE |
除上述指标还有特征稳定性的指标PSI值。
1.混淆矩阵
混淆矩阵是真实值与预测值的交叉对比结果,下图就是混淆矩阵:
混淆矩阵只包含4个指标:TP,FP,FN,TN。由这四个指标可以计算出Pression,Accuracy,Recall,Specificity,TPR,FPR等一系列次级指标。
2.ROC曲线
在逻辑回归、随机森林、GBDT、XGBoost这些模型中,模型训练完成之后,每个样本都会获得对应的两个概率值,一个是样本为正样本的概率,一个是样本为负样本的概率。把每个样本为正样本的概率取出来,进行排序,然后选定一个阈值,将大于这个阈值的样本判定为正样本,小于阈值的样本判定为负样本,然后可以得到两个值,一个是真正率(灵敏度,Sensitivity),一个是假正率(特异度,1-Specificity)。
真正率即判定为正样本且实际为正样本的样本数/所有的正样本数,假正率为判定为正样本实际为负样本的样本数/所有的负样本数。每选定一个阈值,就能得到一对真正率和假正率,由于判定为正样本的概率值区间为[0,1],那么阈值必然在这个区间内选择,因此在此区间内不停地选择不同的阈值,重复这个过程,就能得到一系列的真正率和假正率,以这两个序列作为横纵坐标,即可得到ROC曲线了。而ROC曲线下方的面积,即为AUC值。
3.AUC指数(Area under Cureve)
AUC指数越大表示模型的分类能力越强。
对于AUC值,也许有一个更直观的理解,那就是,在按照正样本概率值对所有样本排序后,任意选取一对正负样本,正样本排在负样本之前的概率值,即为AUC值。也就是说,当所有的正样本在排序后都能排在负样本之前时,就证明所有的样本都被正确分类了,此时的AUC值也会为1。
4.KS曲线
KS曲线其实数据来源和本质和ROC曲线是一致的,只是ROC曲线是把真正率当作纵轴和假正率当作横纵轴,而K-S曲线是把真正率和假正率都当作是纵轴,横轴则由选定的阈值来充当。
计算步骤:
- 按照分类模型返回的概率升序排列 ,也可以直接是数据,根据某一阈值判断为1或0即可
- 把0-1之间等分N份,等分点为阈值,计算TPR、FPR (可以将每一个都作为阈值)
- 对TPR、FPR描点画图即可 (以10%*k(k=1,2,3,…,9)为横坐标,分别以TPR和FPR的值为纵坐标,就可以画出两个曲线,这就是K-S曲线。)
ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。
KS值表示了模型将+和-区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性。
KS值一般是很难达到0.6的,在0.2~0.6之间都不错。
KS值 | 模型解释能力 |
---|---|
<0.2 | No |
0.21~0.40 | 低 |
0.41~0.50 | 中 |
0.51~0.60 | 高 |
0.61~0.75 | 极高 |
>0.9 | 太高,可能有问题 |
5.GINI系数
GINI系数:也是用于模型风险区分能力进行评估。 GINI统计值衡量坏账户数在好账户数上的的累积分布与随机分布曲线之间的面积,好账户与坏账户分布之间的差异越大,GINI指标越高,表明模型的风险区分能力越强。
GINI系数的计算步骤如下:
- 计算每个评分区间的好坏账户数。
- 计算每个评分区间的累计好账户数占总好账户数比率(累计good%)和累计坏账户数占总坏账户数比率(累计bad%)。
- 按照累计好账户占比和累计坏账户占比得出下图所示曲线ADC。
-
计算出图中阴影部分面积,阴影面积占直角三角形ABC面积的百分比,即为GINI系数。
一般情况,若负样本较少,可用2*AUC-1近似。
6.Lift曲线
lift是评估一个预测模型是否有效的度量;它衡量的是模型对目标的响应能力相对于随机选择的提升倍数,以1为界线,大于1表示该模型比随机选择捕捉了更多的响应。等于1 表示该模型独立于随机选择。以信用评分卡模型的评分结果为例,我们通常会将打分后的样本按分数从低到高排序,取10或20等分(有同分数对应多条观测的情况,所以各组观测数未必完全相等),并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比,可由该组坏样本数除以总的坏样本数计算得出;而不使用此评分卡,以随机选择的方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例(分子分母同时乘以样本整体的坏账率)。对两者取累计值,取其比值,则得到提升度Lift,即该评分卡抓取坏客户的能力是随机选择的多少倍。下表是一个提升表(Lift Table)的示例:
以分数段为横轴,以捕捉到的“坏”占比为纵轴,可绘制出提升图,示例如下:
7.Gani曲线
该曲线与Lift曲线有异曲同工之妙,横坐标同样是不同的分段,纵坐标是分段中累计的正样本的比例。Lift曲线的纵坐标是Lift Table的Bad(%)Captured by model,Gain曲线的纵坐标是Cumulative Bad(%)by model。其区别可由下图概括:8.PSI指数
群体稳定性指标PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标。可以评估模型预测能力的稳定性,也可以评估特征(分bin后不同bin样本分布的稳定性)在不同数据集的分布稳定性。PSI计算示例如下图:PSI值 | 稳定性 |
---|---|
<10% | 高,无需更新模型(特征) |
10%~25% | 中,检查一下其他度量方式 |
>25% | 极低,需要更新模型(特征) |
PSI = sum((实际占比-预期占比)* ln(实际占比/预期占比))
(如有不同见解,望不吝赐教!)