搭建金融信贷风控中的机器学习模型-(6)模型验证、监控与调优

1.模型的区分度

        评分模型的作用是通过分数将好坏样本进行区分。理想情况下,所有非违约人群的分数均高于违约人群的分数。因此我们需要某些统计量来衡量好坏样本的分数差异性,即评分模型的区分能力。
评分指标需要满足一定的性质:

  • 与区分能力单调相关,即指标越高,区分能力越强;
  • 与好坏样本的占比不相干,即好坏样本分层抽样后,衡量指标不会明显改变。
    好坏样本分布的差异性
  • KS
    ks=max(TPR-FPR),KS值越大,区分能力越强;当两个模型ks值相同或相似,使用切分点较小的模型。
  • Gini Score
    Gini=\sum_i\frac{n_i}{N}(1-p_i^2-(1-p_i^2)^2)=2\sum_i\frac{n_i}{N}(1-p_i)p_ip_i为样本分组后每组的坏样本率;Gini Scoreu越小区分度越强,最大为0.5,分组越细,分数越小;Gini Score对数据集的好坏比比较敏感;Gini Score不能反映分数在好坏人群上的有序性。
    好坏样本在统计学意义下的“距离”
  • 散度(Divergence)
    Divergence=\frac{(\mu_{good}-\mu_{bad})^2}{\frac{1}{2}(var_{good}-var_{bad})}
    散度越大,区分能力越强
  • 散度与好坏样本的比例无关,抽样不会有明显影响;
  • 好坏样本分数比较接近正态分布时,最能真实反映真实的区分度
  • 没有参照的阈值,可以用来比较不同模型在同一数据集上的表现,或者同一模型在不同时期样本上的表现。

2.模型的预测性与混淆矩阵

        评分模型的预测准确性不能简单地评估有多少样本能被正确地分类。例如有1000个样本,违约样本有10个,即使全部预测为非违约,分类正确率为99%。
两类错误

  • 好样本预测为坏样本
  • 坏样本预测为好样本
    第二个错误代价明显高于第一个。
    混淆矩阵

    Precision=\frac{TP}{TP+FP}
    Recall=\frac{TP}{TP+FN}
    F1=2\frac{Precision*Recall}{Precision+Recall}
    我们希望PrecisionRecall都很大,但两者不能同时增大,F1综合了两个指标,F1越大,模型分类能力越强。
    ROC与AUC
    ROC曲线是一种常用的度量曲线,描述的是TPR与FPR在不同阈值下的变化情况。
    TPR=Recall=\frac{TP}{TP+FN}
    FPR=\frac{FP}{FP+TN}
    TPR反映的是正样本中预测为正样本的比例;FPR反映的是负样本中预测为正样本的比例。理想的模型是TPR为100%,FPR为0%。
    AUC(Area Under Curve)是ROC曲线下的面积,AUC越大,预测能力越强。通常用0.7作为评估AUC的阈值。AUC的物理意义是任取一个正例和任取一个负例,正例排序在负例之前的概率。

3.模型的稳定性

        评分模型追求平稳性,即当前信贷产品、客群、宏观经济、监管政策等没有发生大的变化时,在不同客群或者同一客群在不同时间上的评分相对稳定。在评分模型中,通常用PSI指标衡量模型的平稳性:
PSI=\sum_{i=1}^K(U_i-V_i)*log(\frac{U_i}{V_i}),其中U_i,V_i是两份样本在同一分组上的样本比例。PSI值越低越稳定,常用阈值为25%;PSI同时受分组方式的影响,分组越细,PSI 越低;PSI的计算不需要标签,因此不需要积累完整的表现期。

4.模型的调优

        模型需要进行必要的调优,当遇到如下情况时:

  • 监控结果AUC、KS、PSI不满足要求
  • 产品发生变化。额度提高,周期提高,利率降低
  • 人群发生变化,准入政策发生变化
  • 其他宏观因素发生变化,就业率等。
    特征层面调优
    1.舍弃或新增特征
    2.调整分箱,PSI或者IV发生明显变化
    分数层面调优
    1.重新训练模型,调整分数阈值。

(如有不同见解,望不吝指教!!)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容