网贷平台违约率分析

1、摘要

本文详述了如何通过数据预览,基本数据分析、探索式数据分析,缺失数据填补等方法,实现对[kaggle上Prosper借贷平台贷款者还款与否]这一分类问题如何进行数据分析的具体探索式实践。并分别对2009.07.01前后的模型进行建模分析对比,得出两个模型的预测准确率和变量对模型的重要性对比分析,2009年7月前后数据模型的准确率均约0.99,没有太大的差别,按理来说,2009年7月前的模型准确率不应和2009年7月后的准确率模型如此接近,因此不得不猜测模型准确率高是由于过拟合导致的。

2、项目内容介绍

Prosper LoanData是由Joshua Schnessl从Udacity Data Analyst Nanodegree上把数据放到kaggle的上供感兴趣的人分析的一个实例项目,这并非一个竞赛项目。本人试图通过训练数据集分析出什么类型的借款人更可能不违约,并预测出测试数据集中的每笔贷款是否违约。

本人将LoanStatus(贷款状态)分成完成和违约两种,所以把该项目定义为一个二元分类问题。

3、数据可视化

3.1数据加载

1、导入Python包并读取数据

2、查看数据集

从加载的数据可以看到一共有81个数据特征,因此在接下来的分析过程中将会选取相关的特征进行分析,删除无关变量。

相关变量解释:

本分析依据交易是在进行正常还款期内还是已关闭将LoanStatus分成两组,并根据投资人有无损失将已关闭的交易分成Completed和Defaulted:Current(贷款还款中)、Defaulted(包含Defaulted、Chargedoff、Cancelled)、Completed(包含Completed、FinalPaymentInProgress、Past Due)三组。由于本文是研究违约问题,状态Current(贷款还款中),不能确定是否违约,所以这部分数据不是有效数据,应该去掉,只能用Defaulted(包含Defaulted、Chargedoff、Cancelled)、Completed(包含Completed、FinalPaymentInProgress、Past Due)这2组数据去研究。

3、选取数据集(选取不包含当前正在进行交易的数据)

将LoanStatus数据进行二分类,分为0(违约),1(正常)

4、数据可视化

1、查看过去交易数据正常交易与非常交易的情况

通过观察条形图可以直观看出在过去已进行交易的贷款项目中,其中正常完成的占比比非正常的占比高

2、将数据集分成2009年7月1日前后两部分

ProsperRating (numeric):信用等级,反应的是2009年7月1日后的信用等级,信用等级越高,其偿还能力越强。

CreditGrade 信用等级,反应的是2009年7月1日前客户的信用等级

2.1、分析2009年7月1日前违约数

数据解读,2009年以前,信用等级排序为:AA>A>B>C>D>E>HR,由图可见信用等级越高,违约率越低

2.2、分析2009年7月1日后违约数

由2009年7月前后数据图可见,信用等级越高,违约率越低,综合2009年7月1日前后的数据,都有符合信用等级越高,违约率越低的特点,因此在进行放款的时候,信用等级是一个很好的评估标准。结合查看两个不同等级贷款占比图,发现2009年7月1日后每个等级的违约率都比2009年7月1日前相同等级的违约率低,由此可猜测,在风控模型越来越完善的同时,对是否违约的判断也越来越准确,有效降低违约风险。

3、2009年7月后各相关特征数据可视化

由于2009年7月1日后的风控体系与还在进行的交易体系有较大的相似性,因此接下来的分析中将选取2009年7月1日后的数据进行分析,由于在可视化的时候要进行缺失值处理,定义个去除缺失值的函数

3.1、判断贷款人职业状态与违约率的关系

由图可知有稳定工作收入的人违约率比没有稳定收入的违约率低,因此在放款的时候应加强对借款人收入状态的审核

3.2、工作年限与违约率的关系

由图可看出,违约率最低的是工作了2年到5年的,刚出了工作半年的违约率最高,工作年限低于10年的,工作年限越高违约率越低, 工作年限高于10年的违约率相对工作年限只有2-5年的违约率高,这可能与未来的可支配收入涨幅的提升空间有关,年龄达到一定程度的时候,相比年轻时候的提升 空间低,而且竞争力水平明显比年轻人的低

3.3、年收入与违约率的关系

从图中再次验证了有稳定收入的违约率比没有稳定收入的违约率低,年收入大于25万的违约率要比年收入高于10万低于25万的违约率低,猜测可能是 1、收入高的对应的不稳定性也比较大,假如年收入的一部分是来自投资,投资具有不确定性,过去的年收入高不代表今后的年收入保持只高不低;2、年收入高的 借款人可能家庭支出占比较高,比如孩子上学,要供房公车等,导致最终剩余可支配收入低

3.4、固定资产状况与违约率的关系

由图可得有房屋等固定资产作为担保的借款人的违约率比没有的低

3.5、借款人债务收入比与违约数

按照常识来说债务收入比(DebtToIncomeRatio)低的人更具备还款能力,违约可能性应该低于债务收入比高的人。如下图所示,DebtToIncomeRatio < 0.6的借款人中,违约笔数小于未违约的笔数。从下图也可看出大部分借款人的债务收入比低于0.25,说明平台违约的整体风险可控。

3.6、过去七年违约次数分析

过去七年违约次数(DelinquenciesLast7Years)能够衡量一个人在过去七年中征信情况,违约一次或以上的人在借款时违约概率更大。 如下图所示,DelinquenciesLast7Years < 7的借款人中,违约笔数与未违约的笔数线较为接近。从下图也可看出大部分借款人的DelinquenciesLast7Years 在1次以下, 说明整个平台的风险可控。

4、建模

1、选择要分析的特征值

2、数据清洗

2.1、缺失值处理:

‘BorrowerAPR’缺失值处理:

'ProsperRating (numeric)’缺失值处理:

‘object’类型数据缺失值处理:


‘TotalProsperLoans’缺失值处理

其余数值类型缺失值处理

2.2、数值类型转换:

数值类型转换:object转为int类型:

查看'IncomeRange’值计数,并将其转换为数值类型

将‘CreditGrade‘object类型转换为数值类型:

将‘LoanStatus’转换为数值类型:

3、建模

将数据分成2009年7月1日前后,分别进行建模

3.1、2009年7月1日前的数据

模型准确率高达0.9996

3.2 2009年7月1日后的数据

模型的准确率为:0.9957

5、总结

模型的准确率非常高,模型准确率越高并不代表模型越好,过拟合状态下的模型准确率非常高,模型的准确率太高不得不猜想是不是由于过拟合导致的。猜想的内容还有待学习研究。而且经2009年7月1日前后数据建模分析,模型的准确率并没有太大差别,按理来说,2009年7月1日后的准确率应明显高,这样才能突显网贷平台在进行优化后的成绩。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容