一、背景介绍
本文是对猴子聊人物的《分析案例:贷款逾期分析》的读后感,通过此案例来锻炼分析能力。对逾期用户的行为特征进行分析,给出逾期用户的行为特征画像,为降低逾期风险,提出有建设性的意见。
二、数据源
本数据是某平台2016年的贷款数据,来自kaggle平台
(https://www.kaggle.com/skihikingkevin/online-p2p-lending)
数据集具体字段如下:
三、业务理解
用户画像的核心是给用户贴“标签”,而“标签”是能表示用户某一维度特征的标识。
结合业务,根据人口统计、社会属性、用户消费画像、用户行为画像,用户兴趣画像等特征来构建逾期用户画像。
下图是各行业通用的特征。
四、数据预处理
1.列名重命名
将列名更改为更容易理解的中文形式。
2.删除重复值
该数据集中,编号是唯一标识,因此检查编号是否有重复值。操作步骤:
选择编号列,点击删除行->删除重复项
删除重复值后,对行进行计数,共计2874088行。
3.缺失值处理
全选表格,点击删除行->删除错误->删除空行,之后对行进行计数,行数仍为2874088行,该数据集很完整,可能是经
过清洗后才上传的。
4.字段处理
1)增加是否逾期字段,依据是
操作如下:选择添加列->条件列
2)增加是金额类型字段,依据是
3)增加是分期利率,依据是
5.异常值处理
检查各数据列,没有发现异常值。
五、模型建立
1.整体分析
通过下图可以看出,逾期率为43%,即10个客户中就有多于4个逾期,逾期问题比较严重。
2.原因分析
利用数据透视表逐个维度下探测逾期情况,对各维度下逾期结果进行可视化展现:
结论1:从上图可知,逾期率高的用户普遍特征为:
贷款金额:1W-1.5W,
分期期别:36期,
等级:C级,
分期利率:0.1-0.15,
贷款用途:债务合并(逾期率远远大于其他类型)
上面的各项特征只是简单的把各维度中逾期率最高的特征进行平面展示,以此说明各维度中的整体情况,没有细化到逾
期率与用户关联的这五个维度特性间的相关性。
接下来,我们对刚才的用户特征进行深入研究:
结论2:在债务合并中,贷款金额区间在1W-1.5W逾期率最高,其次是5K-1W。
将贷款利率,分期期别和等级这三个维度进行透视,得出下图:
图中看出C等级下,贷款利率为0.1-0.15的逾期最高。接下来在上图切片器中选择贷款金额区间为1W-1.5W,借款用途
为债务合并,验证结论1。
结论:
1)借款用途为债务合并、贷款金额区间为1W-1.5W逾期高的主要分布在C等级,利率为0.1-0.15区间,且36期略高于60期。
2)其次是B等级,利率为0.1-0.15区间,分期期别为36期。
六、建议
1)需要调整债务合并的信审策略。对用于债务合并用途的申请,在特定等级,特定利率区间,特定金额区间,要增加审批周期,提高审批标准(如提供紧急联系人电话、核查客户单位真实情况),提高利率,严重的要拒贷。
2)获取更多逾期低(优质客户)群体,相应地降低信审标准,增加公司收益。