007第四十篇:“曲线救国”—不连续变量用不了最小二乘回归咋办? 统计学(17)

对数回归Logit regression 发生率自然对数回归 是以过去的可能性或过去的概率为因变项的回归分析,研究概率的变化。

概率:现在的可能性。

似然(likelihood):过去的可能性。

罗列了3个概念,需要扎扎实实的搞清楚。看到以上解释,我们需要不停的转化时空观念,进入更抽象的境地。类似于概率(车辆的速度)与对数回归(加速度)的关系。其一、关于概率:站在今天位置,过去有可能发生的事情,如今有的发生了、有的没发生。换句话说今天发生的事情,过去是不确定知道的必然发生的,那个时候只有一个“似然”。其二、关于对数:日常中我们通常以百分比表示概率,如“下雨概率是60%”。对数回归中表示用的是发生率的自然对数。即:发生概率与不发生概率的比值,取自然对数。  引自—007第三十八篇:新篇章对数回归 统计学(15)

自然对数:以e(2.71828.......)为底的对数。

两分变项:变化不连续的变项,如是否经理的分类答案只能是“是(1)”或“否(0)”表示。

回到正题:

上篇文章说到,设置零假设“种族与是否经理无关”,通过显著度检验证明这样的几率<0.001,所以推翻零假设“种族与是否经理不是无关”(注意:不是无关≠有关,因为可能还有我们不知道的因素影响结论)。作为一个反对方的辩者,在推翻种族与薪资关系赢了一局、但在种族与是否经理这局输了,一定会反驳哦。会提出询问:影响当经理不是是否少数族裔,可能是教育程度、工作经验、服务年限......。

接下来要应对询问,要解决的是在以上条件相同状况下种族对当经理概率的影响。

碰到个问题:在种族与薪资关系研究时,薪资是连续变量,用最小二乘回归解决了。但现在是否经理作为因变项是两分变项,不连续,不能使用最小二乘回归,也就不能用相应的统计控制。为了解决是非问题,只能“曲线救国”了。

一、直线的危机

再次确定一下概率思维的要点分别涉及过去、现在、未来:1、站在过去角度,现在没有发生的事情,在过去看均有可能发生,只是发生可能性有大有小。2、站在现在角度,现在已经发生的事情,并不是必须要发生,不过在过去的发生概率可能最大。3、关于未来,任何事情都可能发生,只是可能性有大小。总之,没有什么事情未来必然发生,也没有什么事情未来不可能发生。

概率有个中间值50%,不发生为0、一定发生为1,所有概率值可以无限趋近于发生或不发生,但用于不可能等于0或1。在两分变项情况下结果一样、但概率可以不同。如:赶飞机,第一次差5分钟、第二次差3分钟、第三次差1分钟,虽然都是没赶上,但赶上的概率越来越大了。

前篇计算平均年薪差别是随机的代表种族没影响,本篇代表有影响,对数回归要表现出“因为种族的原因,每个员工当经理的概率不是50%(随机产生)”

直线表示概率时,会出现概率大于1或者小于0的情况,直接线性回归出现逻辑谬误了。

二、曲线救国

指用“S”型曲线描绘概率从极小到极大的变化,既用一个近似于直线的图形标记概率从小到大的过程,又把变化限制在一定范围之内。一方面我们以概率为因变项,另一方面避免逻辑荒谬。

第一步:概率转化为发生率。比如事件发生概率(P)为0.0001、不发生(1-P)为0.9999,那么发生率(odds)=0.0001/0.9999≈0.0001。

又如事件发生概率(P)为0.5、不发生(1-P)为0.5,那么发生率(odds)=1。

这样解决了一半问题,因变项(概率)不会出现负值了。

第二步:取自然对数,解决发生率的变化与概率变化不一致的问题。

当概率分别为0.5和0.8时发生率对应为1和4;而概率由0.8变为0.9时发生率对应为4和9。概率很高时发生率变化不一致了。为了改善这种情形,采取取自然对数的方式使之对称。如概率分别为0.0001、0.5、0.9999,发生率的自然对数是-9.21、1、+9.21,这样就完美对称了。


概率完美转化后的发生率自然对数分布

经过上两步的转化,将原来线性回归解决不了的问题变为近似于的“S”的曲线表示,最终以“概率”单位测量了两项分布的数据,接下来可以运用数学方法运算结果了.......(下回分解)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容