背景
互联网金融近年来的兴起主要是由于互联网技术的快速发展,依托大数据和云计算等技术为金融市场服务,真正实现普惠金融的目的,拍拍贷作为中国互联网金融协会首批理事单位,是互金公司中非常有代表性的一家企业,本文将以拍拍贷从2015年1月1日到2017年1月30日的328553条数据集来分析,什么样的客户是风险较小的客户?
数据集来源(科赛比赛数据集) https://www.kesci.com/home/dataset/58c614aab84b2c48165a262d
字段描述
数据分析思路及过程
在我国互联网金融现金贷的业务指标体系:
(1)基本数据指标: 用户及行为指标:用户画像,活跃度、留存率、转化率、客单价(平均额度)、用户分布(各人群评级等级占比 ABCDE)、各页面漏斗转化指标等。
产品业务指标:授信人数、授信金额,平均授信金额,授信转化率,用信人数、用信金额,平均用信金额,用信转化率,当日当月余额沉淀等。 获客渠道指标:渠道转化率、渠道成功率、渠道成本,渠道分润等。
营销活动指标:活动成本、活动渠道来源、活动转化率、传播打开数、新增粉丝数/用户数等。 支付及信息指标:支付通道转化率、通道成功率、通道来源、通道成本,外部信息接口查询成本等。
IT性能指标:响应速度、可靠性指标、安全性指标等。 客服指标:投诉分类、接通率、投诉渠道、响应速度、满意度等,如有智能外呼还需要关注外呼转化率等。
(2)基本风险指标:
逾期天数DPD(days past due):已逾契约书约定缴款日的延滞天数,贷放型产品自缴款截止日(通常为次一关帐日)后第一天开始算。 逾期
期数bucket:也叫逾期月数,逾期一期为M1,2期M2。缴款截止日与次一关帐日之间称为M0。
逾期阶段stage:分为前期、中期、后期和转呆账。一般将M1(1-29)列为前期,M2~M3(30~89)列为中期、M4(90+)以上列为后期,若已转呆账者则列入转呆账。
即期指标(coincidental):计算延滞率时常用的两种方法之一,以当期各bucket延滞金额÷应收账款(AR)。
递延指标(lagged):计算延滞率时常用的两种方法之一,延滞金额÷上月应收账款。若单纯想了解各月资产质量结构,可使用coindental,但若想精准溯及逾放源头的话,建议采用lagged。
月底结算(month end):month end报表主要在表达各月月底结算数据,适用于消费金融所有产品。
期末结算(cycle end):cycle end为信用卡特有的结算方式。账务及催收单位皆以cycle为作业周期。
在这个数据集中,由于数据维度有限,只能从用户指标来分析哪些用户的还款能力强和还款意愿强,从而得出优质客户的特征。
△ 提出问题:
各个年龄段客户逾期还款的情况;
认证信息和客户逾期还款的关系;
初始的评级和客户还款情况的关系;
借款金额和客户逾期的关系;
历史成功的借款次数和金额是否具有指导依据;
△ 理解数据:
数据集共有328553行,分为21个字段,包括一个主键(ListingID),7个标的特征和13个成交当是的借款人信息。信息的维度比较广泛,大致可分为基本信息,认证信息,信用信息,借款信息等;
△ 数据清洗:
用Navicat 客户端把数据集导入到MYSQL中,默认字段都是char型,设置ListingID为主键;
因后期需用聚合函数计算,故调整以下列字段类型为int型(整数型):年龄、借款金额,借款期限,历史成功借款次数,历史正常还款期数,历史逾期还款期数;并检验字段类型;
查看返回结果都是328553,说明数据集没有空值,对ListingId去除重复值计数返回结果也是328553,说明数据集没有重复值。由于该数据集比较规整,所以数据清洗工作比较简单。
△ 构建模型及数据可视化
1)各个年龄段客户逾期还款的情况;首先查看最小年龄和最大年龄,为多少,再对年龄进行分段处理;
对年龄进行分组17-25,26-35,36-45,46-56;查找各个年龄层客户的历史违约次数;
可以看到26-35这个年龄层的客户的逾期还款期数是最多的,甚至比其他三个年龄段加起来还要多出近一倍。
2)认证信息与客户逾期还款期数的关系。
结果显示认证的信息越全面,那么发生逾期还款的期数越少。
3)初始的评级和客户还款情况的关系;
通过查询结果可知:评级为A的客户发生逾期的比例最低,评级为F的客户发生逾期的比例最高,说明初始评级可以反映客户未来发生逾期的情况。
4)借款金额和客户逾期的关系;
借款逾期多集中于2千到4千,所以要加强这个金额的客户的审核。
5)历史成功的借款次数和金额是否具有指导依据;
通过查看结果,我们可以看到历史借款成功的次数,对该客户是否产生逾期没有指导依据。
结论:
结论通过ppt形式呈现: