一、逻辑回归(logistic回归),主要解决二分类问题
y经过3次变换;p是值为1的概率值,1-p是值为0的概率值;当x是分类数据,模型表现最佳
二、看数据
先看行数据,再看列数据;再看ID是什么性质的,从ID判断数据是什么类型的
1、行分析
2、列分析
测量级别和角色(对X和Y的判断)
需要满足以下六条中任一条可能为Y,全部满足肯定是Y:
①、存在预测误差
②、花费成本会很高
③、抽象的(如信用、绩效、发病率等,与之相对的是显性变量(看得见摸得着的变量))
④、整合性指标(X变量都是单一指标)
⑤、业务危机发生点(如运营报告)
⑥、BOSS的思路
注:违约率,国际大银行大概在2%以内;国内四大商业银行在10%以内(好的是5%-8%);国内地方商业银行在百分之十几左右;国内互联网金融在20%-40%。
三、logistic回归模型创建步骤
1、画条形图
面积图:是查看数据拐点
条形图:查看波动、趋势、累计,一般是和折线图组合一起使用
直方图:看连续型数据分布情况,研究均值与标准差问题
饼图:查看占比情况,比条形图效果好
2、用卡方作预分析(和线性回归中的r解读方式一样,使用交叉表来分析)
行百分比→强调y的重要性→属于logistics回归→对应p值
列百分比→强调X的重要性→分析woe
总体百分比→用来作卡方分析
期望本身不相关,统计学的单位是误差
2.1 交叉表中期望=行总计值*单列值/总数=f11,即卡方=,操作步骤是点击统计→点击卡方
注:卡方分析作用:百分比是卡方系数;公式很重要,在大数据分析领域应用很大;用于分类与分类间分析
3、回归分析
3.1 三个指标: β→or=;→garma;→伪
3.2 SPSS查看三个表信息,分别是分类表a,b、分类表a、模型摘要和方程中的变量
3.2.1 分类表a,b中百分比是没有X时的概率值,反映的是猜测值的底线值或起点值
3.2.2 分类表a中百分比是预测值的概率值(银行要求大于90%),一般用(这个值-起点概率值)/(100%-起点概率值)来判断好坏
3.2.3 模型摘要,查看伪(即麦克斯-斯奈尔系数,银行要求大于50%)
3.2.4 方程中的变量,B的范围是(-∞,+∞),exp(B)的范围是[0,∞), (用来表示倍数)或(用来反映百分比,正表示增加,负表示下降)。一般地,给老板汇报用百分比描述,给客户说明或增长率超过100%用几倍
3.2.5 Garma=,值范围是[-1,1],正负反映的是方向
4、修正X(不用关注残差)
PRE → ,PGR → 。当>0.5时,为真;当<0.5时,为假
4.1 工具变量(大数据分析会用到)
4.1.1 目的:用新加的X定位真正的影响因子X,即用工具变量找与之相关的X。
使用工具变量改善模型的步骤:
①、判断问题所在,一般有n个变量,存在的问题会有(n-1)*n种问题,找到最需要解决的问题
②、使用if...then..生成工具变量
③、把工具变量加入模型判断伪是否发生改善
④、把工具变量接入大数据后面
⑤、建相关分析,把真正相关的变量Xi找出来;即查看r系数,r大于等于0.8较好,值越高这变量越可能时真正的因子
⑥、把找到的变量Xi接入小数据后面
⑦、重新建模型,把找到的变量Xi加入模型
SPSS是通过数据对接方式来连接数据:数据→合并文件→添加变量→点击要合并的文件(右连接是非活动数据集是键控表(K),左连接是活动数据集是键控表(A),外连接是两个表都提供个案(B),内连接是指示个案源变量(I)) 。主表是活动数据集,一般在主表上点击合并文件功能
4.2 哑变量(就是woe分箱作优化后无法再细分时,这个变量就是哑变量)
小数据分析会用到,通过创建虚变量所产生的变量,注新增的变量种需要删除一个剔除相关性问题;大数据不用创建虚变量,在逻辑回归种有个分类选项可以直接新增哑变量
4.3 woe分箱(大数据分析经常会用到)
4.3.1 定义
分箱是把连续型数据分组成分类数据的过程
最优是把分类数据分组成连续型数据的过程
4.3.2分箱的好处:
①、通俗
②、速度快(名义数据比有序数据快,模拟数据比现实数据快,数值数据比文本数据快,逻辑数据比数值数据快)
③、避免过拟合
④、加强监督(woe的作用)
⑤、避免强异常值
⑥、可做到数据保密
4.3.3 SPSS 实现分箱步骤:
点击转换 → 点击可视分箱 → 生成分割点(等宽区间分组 适用均匀分布的数据,基于所扫描个案的相等百分位数适用偏态分布数据,基于所扫描个案的平均值和标准差适用正态分布数据)
注:一般尽量细分组数多些,方便后面调优合并组降低分析成本;电商一般6-8个组间区分,信用卡评分是16-20组间区分
4.3.4 把定制表转换为数据集步骤:
①、打开OMS:点击实用程序→点击OMS控制面板
②、运行定制表
③、关闭OMS:点击OMS控制面板,将状态由active修改为结束状态
4.3.5 一键搞定woe方法:点击编辑→选项→文件位置→会话日志中statistics.jnl文件保存的就是操作记录内容,把文件中生成woe相关的语句拷贝出来
4.3.6 woe优点:
①、处理缺失值
②、判断分组的合理性,即优化分组
③、加强监督
④、非线性直线化
4.3.6 woe的使用:
(分子是为yes的列百分比,分母是为no的列百分比)
IV=,是对woe进行加权求和
IV值小于2%,不好;2%-10%勉强可以;10%-30%比较好;30%-50%很好;大于等于50%好的有点过头,存在问题
依据公式通过构建定制表来计算woe和IV,再通过拆分方式来进行分组画出各分类对应woe的条形图,然后结合图形、IV和业务情形来修正:
①、发现有某几个分组相差不大,说明分组不合理需调整,解决方法一般是合并
②、若图形呈现“U”型、“/”型或“\”型并且与业务情形相符,那这个分组是可行的;否则不可行,这个变量需要舍弃
5、应用
归因(主次归因和规则归因)和预测(老样本和新样本)
5、总结
逻辑回归和线性回归比较: