转自:
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
https://www.jianshu.com/p/91cf85a48823
去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。
资料显示,1982年至2012年,美国共发生62起(大规模)枪击案。其中,2012年发生了7起,是次数最多的一年。
去年有这么多枪击案,这是巧合,还是美国治安恶化了?
前几天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判断同一年发生7起枪击案是否巧合。
让我们先通过一个例子,了解什么是"泊松分布"。
已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?
假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:
(1)顾客购买水果罐头是小概率事件。
(2)购买水果罐头的顾客是独立的,不会互相影响。
(3)顾客购买水果罐头的概率是稳定的。
在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。
泊松分布的公式如下:
各个参数的含义:
P:每周销售k个罐头的概率。
X:水果罐头的销售变量。
k:X的取值(0,1,2,3...)。
λ:每周水果罐头的平均销售量,是一个常数,本题为2。
根据公式,计算得到每周销量的分布:
每周罐头销量(k) | 概率(P) | 累计概率 |
---|---|---|
X=0 | 0.135 | 0.135 |
X=1 | 0.271 | 0.406 |
X=2 | 0.271 | 0.677 |
X=3 | 0.180 | 0.857 |
X=4 | 0.090 | 0.947 |
X=5 | 0.036 | 0.983 |
X>=6 | 0.017 | 1.000 |
从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);
如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。
现在,我们再回过头,来看美国枪击案。
假定它们满足"泊松分布"的三个条件:
(1)枪击案是小概率事件。
(2)枪击案是独立的,不会互相影响。
(3)枪击案的发生概率是稳定的。
显然,第三个条件是关键。如果成立,就说明美国的治安没有恶化;
如果不成立,就说明枪击案的发生概率不稳定,正在提高,美国治安恶化。
根据资料,1982--2012年枪击案的分布情况如下:
每年枪击案数量 | 年数 |
---|---|
0 | 4 |
1 | 10 |
2 | 7 |
3 | 5 |
4 | 4 |
5 | 0 |
6 | 0 |
7 | 1 |
计算得到,平均每年发生2起枪击案,所以 λ = 2 。
上图中,蓝色的条形柱是实际的观察值,红色的虚线是理论的预期值。可以看到,观察值与期望值还是相当接近的。
每年枪击案数量 | 观察值 | 泊松分布期望值 |
---|---|---|
0 | 4 | 4.2 |
1 | 10 | 8.39 |
2 | 7 | 8.39 |
3 | 5 | 5.59 |
4 | 4 | 2.8 |
5 | 0 | 1.12 |
6 | 0 | 0.37 |
7 | 1 | 0.11 |
我们用"卡方检验"(chi-square test),检验观察值与期望值之间是否存在显著差异。
卡方统计量 = Σ [ ( 观察值 - 期望值 ) ^ 2 / 期望值 ]
计算得到,卡方统计量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布临界值为12.017。
因此,卡方统计量小于临界值,这表明枪击案的观察值与期望值之间没有显著差异。
所以,可以接受"发生枪击案的概率是稳定的"假设,也就是说,从统计学上无法得到美国治安正在恶化的结论。
但是,也必须看到,卡方统计量9.82离临界值很接近,p-value只有0.18。
也就是说,对于"美国治安没有恶化"的结论,我们只有82%的把握,还有18%的可能是我们错了,美国治安实际上正在恶化。
因此,这就需要看今后两年中,是否还有大量枪击案发生。如果确实发生了,泊松分布就不成立了。
定义与推导
1. 定义和现实应用
泊松概率分布描述的是在某段时间或某个空间内发生随机事件次数的概率,简而言之就是:
根据过去某个随机事件在某段时间或某个空间内发生的平均次数,
预测该随机事件在未来同样长的时间或同样大的空间内发生k次的概率。
其概率质量函数为:
其中:
λ是过去某段时间或某个空间内随机事件发生的平均次数
e=2.71828...,是自然常数
k的取值为 0, 1, 2, 3, 4, ...
k! = k x (k-1) x (k-2) x ... x 2 x 1,是k的阶乘
由于泊松分布适用于描述某段时间(或某个空间)内随机事件发生的次数,因此它常用于预测某些事件的发生。
例如:
- 某家医院在一定时间内到达的人数;
- 超市收银台在某段时间内的结账人数;
- 某段时间内发生自然灾害的次数;
- 某段时间内DNA序列的变异数;
- 放射性原子核在一段时间内的衰变数等等。
2. 泊松分布的推导
泊松分布的概率质量函数可以由二项分布的概率质量函数推导而来,下面是推导过程。
二项分布的分布列为:
其中
n代表伯努利试验的次数
p代表试验成功的概率,则1-p为试验失败的概率
k代表n次试验中成功的次数,则失败次数为n-k
假定在过去的历史中,某个随机事件在固定长度时间段发生的平均次数为λ,那么就可以将固定长度的时间分成n等份;
在每等份的时间内,随机事件发生的概率可以表示为λ/n。若n趋于无穷大,也就是这段时间被分成无数的小段,那么λ/n的值将趋近于0,也就是在每个等份的时间内,该随机事件发生两次或两次以上是不可能的。
根据以上假设条件,在固定长度时间内,随机事件发生k次的概率服从二项概率分布,可以表示为:
由上可知,在二项分布的伯努利试验中,如果试验次数n很大,成功概率p很小,
且乘积λ=np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。
事实上,二项分布可以看作泊松分布在离散时间上的对应物。
3. 泊松分布的性质
从泊松分布的概率质量函数可以看出,λ是泊松分布所依赖的唯一参数,随着历史平均次数λ的不同,泊松分布的概率分布形态也将随之改变。如下图,随着λ的增大,泊松分布的形态也由右偏分布 (尾巴在右边) 逐渐变为对称分布。
在实际情况中,当λ很大时,可以用正态分布近似地处理泊松分布问题
泊松分布的期望值与方差相等,同为参数λ,即:E(X)=Var(X)=λ (具体推导过程可参考泊松分布的中文维基百科词条)。
对于这个性质,也可通过二项分布的期望值和方差进行推导,我们知道二项分布的期望值和方差分别为和,则泊松分布的期望值和方差为:
上式推导利用了λ/n的值趋近于0的这个性质