2.4.2 常用离散分布 - 泊松分布

转自:
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
https://www.jianshu.com/p/91cf85a48823

去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。
资料显示,1982年至2012年,美国共发生62起(大规模)枪击案。其中,2012年发生了7起,是次数最多的一年。

image

去年有这么多枪击案,这是巧合,还是美国治安恶化了?
前几天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判断同一年发生7起枪击案是否巧合。
让我们先通过一个例子,了解什么是"泊松分布"。



已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?

假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:

(1)顾客购买水果罐头是小概率事件。
(2)购买水果罐头的顾客是独立的,不会互相影响。
(3)顾客购买水果罐头的概率是稳定的。

在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。
泊松分布的公式如下:
P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

各个参数的含义:

P:每周销售k个罐头的概率。
X:水果罐头的销售变量。
k:X的取值(0,1,2,3...)。
λ:每周水果罐头的平均销售量,是一个常数,本题为2。

根据公式,计算得到每周销量的分布:

每周罐头销量(k) 概率(P) 累计概率
X=0 0.135 0.135
X=1 0.271 0.406
X=2 0.271 0.677
X=3 0.180 0.857
X=4 0.090 0.947
X=5 0.036 0.983
X>=6 0.017 1.000

从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);
如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。



现在,我们再回过头,来看美国枪击案。
假定它们满足"泊松分布"的三个条件:

(1)枪击案是小概率事件。
(2)枪击案是独立的,不会互相影响。
(3)枪击案的发生概率是稳定的。

显然,第三个条件是关键。如果成立,就说明美国的治安没有恶化;
如果不成立,就说明枪击案的发生概率不稳定,正在提高,美国治安恶化。
根据资料,1982--2012年枪击案的分布情况如下:

每年枪击案数量 年数
0 4
1 10
2 7
3 5
4 4
5 0
6 0
7 1

计算得到,平均每年发生2起枪击案,所以 λ = 2 。


image

上图中,蓝色的条形柱是实际的观察值,红色的虚线是理论的预期值。可以看到,观察值与期望值还是相当接近的。

每年枪击案数量 观察值 泊松分布期望值
0 4 4.2
1 10 8.39
2 7 8.39
3 5 5.59
4 4 2.8
5 0 1.12
6 0 0.37
7 1 0.11

我们用"卡方检验"(chi-square test),检验观察值与期望值之间是否存在显著差异。

卡方统计量 = Σ [ ( 观察值 - 期望值 ) ^ 2 / 期望值 ]

计算得到,卡方统计量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布临界值为12.017。
因此,卡方统计量小于临界值,这表明枪击案的观察值与期望值之间没有显著差异。
所以,可以接受"发生枪击案的概率是稳定的"假设,也就是说,从统计学上无法得到美国治安正在恶化的结论。

但是,也必须看到,卡方统计量9.82离临界值很接近,p-value只有0.18。
也就是说,对于"美国治安没有恶化"的结论,我们只有82%的把握,还有18%的可能是我们错了,美国治安实际上正在恶化。
因此,这就需要看今后两年中,是否还有大量枪击案发生。如果确实发生了,泊松分布就不成立了。



定义与推导

1. 定义和现实应用

泊松概率分布描述的是在某段时间或某个空间内发生随机事件次数的概率,简而言之就是:
根据过去某个随机事件在某段时间或某个空间内发生的平均次数,
预测该随机事件在未来同样长的时间或同样大的空间内发生k次的概率

其概率质量函数为:
P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}
其中:

λ是过去某段时间或某个空间内随机事件发生的平均次数
e=2.71828...,是自然常数
k的取值为 0, 1, 2, 3, 4, ...
k! = k x (k-1) x (k-2) x ... x 2 x 1,是k的阶乘

由于泊松分布适用于描述某段时间(或某个空间)内随机事件发生的次数,因此它常用于预测某些事件的发生。
例如:

  • 某家医院在一定时间内到达的人数;
  • 超市收银台在某段时间内的结账人数;
  • 某段时间内发生自然灾害的次数;
  • 某段时间内DNA序列的变异数;
  • 放射性原子核在一段时间内的衰变数等等。

2. 泊松分布的推导

泊松分布的概率质量函数可以由二项分布的概率质量函数推导而来,下面是推导过程。
二项分布的分布列为:
P(X=k)=C_{n}^{k}p^k(1-p)^{n-k}, k=0,1,2,...,n
其中

n代表伯努利试验的次数
p代表试验成功的概率,则1-p为试验失败的概率
k代表n次试验中成功的次数,则失败次数为n-k

假定在过去的历史中,某个随机事件在固定长度时间段发生的平均次数为λ,那么就可以将固定长度的时间分成n等份;
在每等份的时间内,随机事件发生的概率可以表示为λ/n。若n趋于无穷大,也就是这段时间被分成无数的小段,那么λ/n的值将趋近于0,也就是在每个等份的时间内,该随机事件发生两次或两次以上是不可能的。
根据以上假设条件,在固定长度时间内,随机事件发生k次的概率服从二项概率分布,可以表示为:
\quad \lim_{n \to \infty}P(X=k)
=\lim_{n \to \infty}\binom{n}{k}p^k(1-p)^{n-k}
=\lim_{n \to \infty}\frac{n!}{(n-k)!k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}
=\lim_{n \to \infty} \underbrace{\begin{bmatrix}\frac{n!}{(n-k)!n^k}\end{bmatrix}}_{F} (\frac{\lambda^{k}}{k!}) \underbrace{(1-\frac{\lambda}{n})^n}_{\to exp(-\lambda)} \underbrace{(1-\frac{\lambda}{n})^{- k}}_{\to 1}
=\lim_{n \to \infty} \underbrace{\begin{bmatrix}(1-\frac{1}{n})(1-\frac{2}{n})…(1-\frac{k-1}{n})\end{bmatrix}}_{\to1} (\frac{\lambda^{k}}{{k}!}) \underbrace{(1-\frac{\lambda}{n})^n}_{\to exp(-\lambda)} \underbrace{(1-\frac{\lambda}{n})^{-k}}_{\to 1}
=(\frac{\lambda^{k}}{{k}!}) exp(-\lambda)

由上可知,在二项分布的伯努利试验中,如果试验次数n很大,成功概率p很小,
且乘积λ=np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。
事实上,二项分布可以看作泊松分布在离散时间上的对应物。

3. 泊松分布的性质

从泊松分布的概率质量函数可以看出,λ是泊松分布所依赖的唯一参数,随着历史平均次数λ的不同,泊松分布的概率分布形态也将随之改变。如下图,随着λ的增大,泊松分布的形态也由右偏分布 (尾巴在右边) 逐渐变为对称分布。


image
在实际情况中,当λ很大时,可以用正态分布近似地处理泊松分布问题

泊松分布的期望值与方差相等,同为参数λ,即:E(X)=Var(X)=λ (具体推导过程可参考泊松分布的中文维基百科词条)。
对于这个性质,也可通过二项分布的期望值和方差进行推导,我们知道二项分布的期望值和方差分别为npnpq,则泊松分布的期望值和方差为:
E(X)=np=n\frac{\lambda}{n}=\lambda
Var(X)=npq=np(1-p)=n\frac{\lambda}{n}(1-\frac{\lambda}{n})=\lambda

上式推导利用了λ/n的值趋近于0的这个性质
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容

  • 作者:阮一峰 日期:2013年1月 8日 去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。 资料显示,1...
    唐山_risk阅读 1,066评论 0 1
  • 文章转自:泊松分布和指数分布:10分钟教程 - 阮一峰的网络日志 http://www.ruanyifeng.co...
    horu阅读 7,937评论 0 11
  • 商店缺货问题 满足条件 假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:(1)顾客购买水果罐头是小概率...
    Zszen阅读 1,988评论 0 50
  • 背景 阮一峰的博客讲到了如何理解泊松分布: http://www.ruanyifeng.com/blog/2013...
    唐山_risk阅读 6,839评论 0 5
  • 前面我们介绍了多种离散型概率分布,大家可以点击下方链接来回顾: R统计学(01): 伯努利分布、二项分布 R统计学...
    R语言和Python学堂阅读 16,513评论 8 27