2019-05-05

> # 何时可以使用线性概率模型?

**Source:** [When Can You Fit a Linear Probability Model? More Often Than You Think](https://statisticalhorizons.com/when-can-you-fit)

2015 年 7 月,PAUL VON HIPPEL 提出了一些线性概率模型相对于 Logistic 模型的优势。他认为,相比其他逻辑模型来说,线性模型更易于解释并且运行的更快,这对于处理数据集较大或复杂模型时就显得尤为重要。此外,线性概率模型通常与 Logistic 模型一样适用,因为在某些范围内概率 p 几乎与 logistic 回归中使用的对数概率函数 ln(p(1-p))线性相关。

以经验来看,他建议线性概率模型可以用于概率范围在.20和.80之间的模型。因为在此范围内,概率和对数概率几乎是线性相关的(如图1所示)。Long(1997)也曾给出过类似合理的建议,但显然线性概率模型实际可行的应用范围比这更广。

![图1](https://gitee.com/uploads/images/2019/0505/182009_7085616f_4951365.jpeg "The relationship between probability and log odds over the range of probabilities from .2 to .8")

例如,在 Joe Workman 和 Paul Von Hippel 发表的一篇新的论文中,他们应用多水平模型来研究幼儿园到二年级美国儿童肥胖情况发现:该年龄段的儿童肥胖可能性从0.09增加到了0.13。但由于这些概率小于0.20,你可能会猜测不能使用线性概率模型。但他们做到了并且线性模型还运行得很快,而 logistic 模型在多水平环境中反而运行的很慢。此外,线性模型也对结果给出了很好的解释;例如,作者在论文中写道“儿童肥胖的概率在夏天会每月增加大约1个百分点[^1]。” 并且我们在模型拟合方面也没有任何损失;线性模型实际上是和 logistic 模型适用范围是一样的,因为在在0.09到0.13的概率范围内,概率几乎与其对数概率成线性关系(如图2所示)。

![图2](https://gitee.com/uploads/images/2019/0505/230153_7ab19ebf_4951365.jpeg "The relationship between probability and log odds over the range of probabilities from .09 to .13.")

最基本的观点是,只要概率和其对数概率的关系在模型应用的概率范围内是近似线性的,那么就可以使用线性概率模型。在0.2到0.8之间的概率只是使得近似线性关系可以成立的其中一个范围,有时也某些小于0.2或大于0.8的狭窄范围也是适用线性概率模型的。

当概率与对数概率之间的关系是非线性时,仍然存在线性概率模型可行的情况。例如,如果你的回归量x是分类变量,那么你其实并不是在为一个连续的概率函数建模。相反,你正在建模的是与X相关的其他类别离散概率,这可以用线性模型和 Logistic 模型来实现,尤其是模型中包含X变量的交互项时( Angrist & Pischke, 2008, chapter 3; Pischke, 2012 )。

但是我不认为线性概率模型总是可行的。有时我的确使用 Logistic 模型。例如,通过查看来自 Belmont Stakes 30 年来的赛马数据,我发现爱马受惊被扰乱的概率与开始比赛时参赛马的数量密切相关。开始时参赛的马越多,其中一匹就越有可能干扰爱马的可能性就越大(如图3所示)。

![图3](https://gitee.com/uploads/images/2019/0505/234147_0db9ec25_4951365.jpeg "The relationship between the number of horses starting the Belmont Stakes and the probability that the favorite will be upset.")

在概率数量级上,这种关系是强非线性的。这种强非线性关系几乎概率涵盖了从0到1的整个范围。所以线性概率模型不能很容易地拟合这些数据。当作者出于好奇尝试着用线性模型时发现,某些模型的概率超出了上界1。我可以通过找到x变量的某种非线性变换来改进线性模型的拟合程度。但是找到正确的变换并不容易,而且即使找到了它,线性模型的易解释性也会丧失。相比之下拟合一个本身就可以保持概率有界的 Logistic 模型更简单。

为了检验数据是否适用于线性概率模型的一个基本诊断方法就是,在数据可行的概率范围内绘制概率和对数概率之间的关系。如果关系如图1和图2所示是接近线性的,那么线性概率模型将与 Logistic 模型一样适用,并且线性模型可以运行的更快且更易于解释结果。但是如果关系呈现如图3所示很强的非线性的,那么线性模型可能不适合,除非变量 X 是离散的分类变量。

概率与对数概率的关系很容易通过各种软件绘制出来。例如,在 Stata 中可以通过如下所示的命令绘制除图1所示的关系图:

``` stata

twoway function y=ln(x/(1-x)), range(.2 .8) xtitle(“Probability”) ytitle(“Log odds”)

```

同样的,我使用相同的命令绘制出图2,只将范围更改为(.09.13)如下:

``` stata

twoway function y=ln(x/(1-x)), range(.09.13) xtitle(“Probability”) ytitle(“Log odds”)

```

在某些情况下,概率和其对数概率函数之间的关系只是轻微的非线性并非强非线性。那么你将面临一个权衡取舍,实际上你对模型的选择将取决于你设定的研究目标。如果你主要想要的是对关系的大致清晰的概括,那么你可能愿意容忍一些错误,并使用一个快速运行的线性模型从而给出易于解释的系数。但是如果你想要获得一个准确的概率,那么你可能愿意牺牲模型运行时间和系数的可解释性来获得一个更好的概率估计。例如,作者 Paul Von Hippel 开发了一个金融风险模型来预测交易欺诈或借款人违约的发生可能性。在这种情况下系数就不是考虑的焦点,而是需要模型为单个交易或借款人分配一个准确的违约概率。而线性模型在风险控制模型涵盖的概率范围内的表现通常很差。那么 Logistic 模型就自然是一个更好的选择,尽管我们也会使用如,神经网络或决策树这类其他非线性模型。

> ## 参考文献

1.Angrist, J. D., & Pischke, J.-S. (2008). Mostly Harmless Econometrics: An Empiricist’s Companion (1st ed.). Princeton University Press.

2.Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables (1st ed.). Sage Publications, Inc.

3.Pischke, J.-S. (2012, July 9). Probit better than LPM? Retrieved from http://www.mostlyharmlesseconometrics.com/2012/07/probit-better-than-lpm/

4.von Hippel, P.T. & Workman, J. (2016). From Kindergarten Through Second Grade, U.S. Children’s Obesity Prevalence Grows Only During Summer Vacations. Obesity Volume 24, Issue 11, pages 2296–2300. http://onlinelibrary.wiley.com/doi/10.1002/oby.21613/full

[^1]: von Hippel, Paul T., and Joseph Workman. "From kindergarten through second grade, US children's obesity prevalence grows only during summer vacations." Obesity 24.11 (2016): 2296-2300.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容