对数回归Logit regression 发生率自然对数回归 是以过去的可能性或过去的概率为因变项的回归分析,研究概率的变化。
概率:现在的可能性。
似然(likelihood):过去的可能性。
罗列了3个概念,需要扎扎实实的搞清楚。看到以上解释,我们需要不停的转化时空观念,进入更抽象的境地。类似于概率(车辆的速度)与对数回归(加速度)的关系。其一、关于概率:站在今天位置,过去有可能发生的事情,如今有的发生了、有的没发生。换句话说今天发生的事情,过去是不确定知道的必然发生的,那个时候只有一个“似然”。其二、关于对数:日常中我们通常以百分比表示概率,如“下雨概率是60%”。对数回归中表示用的是发生率的自然对数。即:发生概率与不发生概率的比值,取自然对数。 引自—007第三十八篇:新篇章对数回归 统计学(15)
自然对数:以e(2.71828.......)为底的对数。
两分变项:变化不连续的变项,如是否经理的分类答案只能是“是(1)”或“否(0)”表示。
回到正题:
上篇文章说到,设置零假设“种族与是否经理无关”,通过显著度检验证明这样的几率<0.001,所以推翻零假设“种族与是否经理不是无关”(注意:不是无关≠有关,因为可能还有我们不知道的因素影响结论)。作为一个反对方的辩者,在推翻种族与薪资关系赢了一局、但在种族与是否经理这局输了,一定会反驳哦。会提出询问:影响当经理不是是否少数族裔,可能是教育程度、工作经验、服务年限......。
接下来要应对询问,要解决的是在以上条件相同状况下种族对当经理概率的影响。
碰到个问题:在种族与薪资关系研究时,薪资是连续变量,用最小二乘回归解决了。但现在是否经理作为因变项是两分变项,不连续,不能使用最小二乘回归,也就不能用相应的统计控制。为了解决是非问题,只能“曲线救国”了。
一、直线的危机
再次确定一下概率思维的要点分别涉及过去、现在、未来:1、站在过去角度,现在没有发生的事情,在过去看均有可能发生,只是发生可能性有大有小。2、站在现在角度,现在已经发生的事情,并不是必须要发生,不过在过去的发生概率可能最大。3、关于未来,任何事情都可能发生,只是可能性有大小。总之,没有什么事情未来必然发生,也没有什么事情未来不可能发生。
概率有个中间值50%,不发生为0、一定发生为1,所有概率值可以无限趋近于发生或不发生,但用于不可能等于0或1。在两分变项情况下结果一样、但概率可以不同。如:赶飞机,第一次差5分钟、第二次差3分钟、第三次差1分钟,虽然都是没赶上,但赶上的概率越来越大了。
前篇计算平均年薪差别是随机的代表种族没影响,本篇代表有影响,对数回归要表现出“因为种族的原因,每个员工当经理的概率不是50%(随机产生)”
直线表示概率时,会出现概率大于1或者小于0的情况,直接线性回归出现逻辑谬误了。
二、曲线救国
指用“S”型曲线描绘概率从极小到极大的变化,既用一个近似于直线的图形标记概率从小到大的过程,又把变化限制在一定范围之内。一方面我们以概率为因变项,另一方面避免逻辑荒谬。
第一步:概率转化为发生率。比如事件发生概率(P)为0.0001、不发生(1-P)为0.9999,那么发生率(odds)=0.0001/0.9999≈0.0001。
又如事件发生概率(P)为0.5、不发生(1-P)为0.5,那么发生率(odds)=1。
这样解决了一半问题,因变项(概率)不会出现负值了。
第二步:取自然对数,解决发生率的变化与概率变化不一致的问题。
当概率分别为0.5和0.8时发生率对应为1和4;而概率由0.8变为0.9时发生率对应为4和9。概率很高时发生率变化不一致了。为了改善这种情形,采取取自然对数的方式使之对称。如概率分别为0.0001、0.5、0.9999,发生率的自然对数是-9.21、1、+9.21,这样就完美对称了。
经过上两步的转化,将原来线性回归解决不了的问题变为近似于的“S”的曲线表示,最终以“概率”单位测量了两项分布的数据,接下来可以运用数学方法运算结果了.......(下回分解)