20190813SPSS学习心得(二)

一、逻辑回归(logistic回归),主要解决二分类问题

      log\frac{p}{1-p} =β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε

     y经过3次变换;p是值为1的概率值,1-p是值为0的概率值;当x是分类数据,模型表现最佳

二、看数据

        先看行数据,再看列数据;再看ID是什么性质的,从ID判断数据是什么类型的

        1、行分析

            
          2、列分析

             测量级别和角色(对X和Y的判断)

            需要满足以下六条中任一条可能为Y,全部满足肯定是Y:

             ①、存在预测误差

             ②、花费成本会很高

             ③、抽象的(如信用、绩效、发病率等,与之相对的是显性变量(看得见摸得着的变量))

             ④、整合性指标(X变量都是单一指标)

             ⑤、业务危机发生点(如运营报告)

             ⑥、BOSS的思路

          注:违约率,国际大银行大概在2%以内;国内四大商业银行在10%以内(好的是5%-8%);国内地方商业银行在百分之十几左右;国内互联网金融在20%-40%。

三、logistic回归模型创建步骤

        1、画条形图

             面积图:是查看数据拐点

             条形图:查看波动、趋势、累计,一般是和折线图组合一起使用

             直方图:看连续型数据分布情况,研究均值与标准差问题

              饼图:查看占比情况,比条形图效果好

        2、用卡方作预分析(和线性回归中的r解读方式一样,使用交叉表来分析)

             行百分比→强调y的重要性→属于logistics回归→对应p值

             列百分比→强调X的重要性→分析woe

             总体百分比→用来作卡方分析

             期望本身不相关,统计学的单位是误差

             2.1 交叉表中期望=行总计值*单列值/总数=f11,即卡方=\sum_{} (f_{i}-f_{11i})^2/f_{11i},操作步骤是点击统计→点击卡方

卡方标准分布图

        注:卡方分析作用:百分比是卡方系数;公式很重要,在大数据分析领域应用很大;用于分类与分类间分析

3、回归分析

             3.1 三个指标: β→or=e^βZ_{β}→garma;R^2→伪R^2

             3.2 SPSS查看三个表信息,分别是分类表a,b、分类表a、模型摘要和方程中的变量

                   3.2.1    分类表a,b中百分比是没有X时的概率值,反映的是猜测值的底线值或起点值

                   3.2.2    分类表a中百分比是预测值的概率值(银行要求大于90%),一般用(这个值-起点概率值)/(100%-起点概率值)来判断好坏

                   3.2.3    模型摘要,查看伪R^2(即麦克斯-斯奈尔系数,银行要求大于50%)

                    3.2.4    方程中的变量,B的范围是(-∞,+∞),exp(B)的范围是[0,∞), or=exp(Bi)=e^β=\frac{\frac{p′}{1-p′}}{\frac{p}{1-p}} (用来表示倍数)或\frac{(or-1)}{1} * 100\%(用来反映百分比,正表示增加,负表示下降)。一般地,给老板汇报用百分比描述,给客户说明或增长率超过100%用几倍

                    3.2.5 Garma=\frac{or-1}{or+1} ,值范围是[-1,1],正负反映的是方向

        4、修正X(不用关注残差)

               PRE → P_{\hat{y}},PGR → \hat{y}。当P_{\hat{y}}>0.5时,\hat{y}为真;当P_{\hat{y}}<0.5时,\hat{y}为假

              4.1 工具变量(大数据分析会用到)

                    4.1.1 目的:用新加的X定位真正的影响因子X,即用工具变量找与之相关的X。

                    使用工具变量改善模型的步骤:

                      ①、判断问题所在,一般有n个变量,存在的问题会有(n-1)*n种问题,找到最需要解决的问题

                      ②、使用if...then..生成工具变量

                      ③、把工具变量加入模型判断伪R^2是否发生改善

                      ④、把工具变量接入大数据后面

                      ⑤、建相关分析,把真正相关的变量Xi找出来;即查看r系数,r大于等于0.8较好,值越高这变量越可能时真正的因子

                      ⑥、把找到的变量Xi接入小数据后面

                      ⑦、重新建模型,把找到的变量Xi加入模型

                 SPSS是通过数据对接方式来连接数据:数据→合并文件→添加变量→点击要合并的文件(右连接是非活动数据集是键控表(K),左连接是活动数据集是键控表(A),外连接是两个表都提供个案(B),内连接是指示个案源变量(I)) 。主表是活动数据集,一般在主表上点击合并文件功能         

              4.2 哑变量(就是woe分箱作优化后无法再细分时,这个变量就是哑变量)

               小数据分析会用到,通过创建虚变量所产生的变量,注新增的变量种需要删除一个剔除相关性问题;大数据不用创建虚变量,在逻辑回归种有个分类选项可以直接新增哑变量

              4.3 woe分箱(大数据分析经常会用到)

                    4.3.1 定义

                              分箱是把连续型数据分组成分类数据的过程

                              最优是把分类数据分组成连续型数据的过程

                      4.3.2分箱的好处:

                      ①、通俗

                      ②、速度快(名义数据比有序数据快,模拟数据比现实数据快,数值数据比文本数据快,逻辑数据比数值数据快)

                      ③、避免过拟合

                      ④、加强监督(woe的作用)

                      ⑤、避免强异常值

                      ⑥、可做到数据保密

                      4.3.3 SPSS 实现分箱步骤:

                       点击转换 → 点击可视分箱 → 生成分割点(等宽区间分组 适用均匀分布的数据,基于所扫描个案的相等百分位数适用偏态分布数据,基于所扫描个案的平均值和标准差适用正态分布数据)

                       注:一般尽量细分组数多些,方便后面调优合并组降低分析成本;电商一般6-8个组间区分,信用卡评分是16-20组间区分

                       4.3.4 把定制表转换为数据集步骤:

                      ①、打开OMS:点击实用程序→点击OMS控制面板

                      ②、运行定制表

                      ③、关闭OMS:点击OMS控制面板,将状态由active修改为结束状态

                        4.3.5 一键搞定woe方法:点击编辑→选项→文件位置→会话日志中statistics.jnl文件保存的就是操作记录内容,把文件中生成woe相关的语句拷贝出来

                        4.3.6 woe优点:

                      ①、处理缺失值

                      ②、判断分组的合理性,即优化分组

                      ③、加强监督

                      ④、非线性直线化

                        4.3.6 woe的使用:

                          woe_{i}=ln\frac{P_{i1}}{P_{i0}} (分子是为yes的列百分比,分母是为no的列百分比)

                           IV=\sum_{ } [(P_{i1}-P_{i0})woe_{i}],是对woe进行加权求和

                           IV值小于2%,不好;2%-10%勉强可以;10%-30%比较好;30%-50%很好;大于等于50%好的有点过头,存在问题

                           依据公式通过构建定制表来计算woe和IV,再通过拆分方式来进行分组画出各分类对应woe的条形图,然后结合图形、IV和业务情形来修正:

                      ①、发现有某几个分组相差不大,说明分组不合理需调整,解决方法一般是合并

                      ②、若图形呈现“U”型、“/”型或“\”型并且与业务情形相符,那这个分组是可行的;否则不可行,这个变量需要舍弃

        5、应用

            归因(主次归因和规则归因)和预测(老样本和新样本)

        5、总结

             逻辑回归和线性回归比较:

二者简单比较
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345