1.模型的区分度
评分模型的作用是通过分数将好坏样本进行区分。理想情况下,所有非违约人群的分数均高于违约人群的分数。因此我们需要某些统计量来衡量好坏样本的分数差异性,即评分模型的区分能力。
评分指标需要满足一定的性质:
- 与区分能力单调相关,即指标越高,区分能力越强;
- 与好坏样本的占比不相干,即好坏样本分层抽样后,衡量指标不会明显改变。
好坏样本分布的差异性: - KS
ks=max(TPR-FPR),KS值越大,区分能力越强;当两个模型ks值相同或相似,使用切分点较小的模型。 - Gini Score
,为样本分组后每组的坏样本率;Gini Scoreu越小区分度越强,最大为0.5,分组越细,分数越小;Gini Score对数据集的好坏比比较敏感;Gini Score不能反映分数在好坏人群上的有序性。
好坏样本在统计学意义下的“距离” - 散度(Divergence)
散度越大,区分能力越强 - 散度与好坏样本的比例无关,抽样不会有明显影响;
- 好坏样本分数比较接近正态分布时,最能真实反映真实的区分度
- 没有参照的阈值,可以用来比较不同模型在同一数据集上的表现,或者同一模型在不同时期样本上的表现。
2.模型的预测性与混淆矩阵
评分模型的预测准确性不能简单地评估有多少样本能被正确地分类。例如有1000个样本,违约样本有10个,即使全部预测为非违约,分类正确率为99%。
两类错误
- 好样本预测为坏样本
- 坏样本预测为好样本
第二个错误代价明显高于第一个。
我们希望,都很大,但两者不能同时增大,综合了两个指标,越大,模型分类能力越强。
ROC与AUC
ROC曲线是一种常用的度量曲线,描述的是TPR与FPR在不同阈值下的变化情况。
TPR反映的是正样本中预测为正样本的比例;FPR反映的是负样本中预测为正样本的比例。理想的模型是TPR为100%,FPR为0%。
AUC(Area Under Curve)是ROC曲线下的面积,AUC越大,预测能力越强。通常用0.7作为评估AUC的阈值。AUC的物理意义是任取一个正例和任取一个负例,正例排序在负例之前的概率。
3.模型的稳定性
评分模型追求平稳性,即当前信贷产品、客群、宏观经济、监管政策等没有发生大的变化时,在不同客群或者同一客群在不同时间上的评分相对稳定。在评分模型中,通常用PSI指标衡量模型的平稳性:
,其中是两份样本在同一分组上的样本比例。PSI值越低越稳定,常用阈值为25%;PSI同时受分组方式的影响,分组越细,PSI 越低;PSI的计算不需要标签,因此不需要积累完整的表现期。
4.模型的调优
模型需要进行必要的调优,当遇到如下情况时:
- 监控结果AUC、KS、PSI不满足要求
- 产品发生变化。额度提高,周期提高,利率降低
- 人群发生变化,准入政策发生变化
- 其他宏观因素发生变化,就业率等。
特征层面调优
1.舍弃或新增特征
2.调整分箱,PSI或者IV发生明显变化
分数层面调优
1.重新训练模型,调整分数阈值。
(如有不同见解,望不吝指教!!)