0x00 前言
在统计学中,随机变量就是指一个随机的事件结果的取值X,比如一次抛硬币随机事件会出现两种情况,一个正面一个反面,或随机拔下一根头发的长度都是随机变量。
概率呢,就是指一个随机事件,在发生前都不能确定它的结果是什么,但是我们可以判断每一种结果发生的可能性大小,这个数值就是概率。概率分类就是通过结果的概率确定方法不同来分类的,可以分为古典概率和条件概率。
古典概率的定义就是一次随机事件它的结果种类可知,且它每种结果的概率都相等,所以古典事件每种结果出现的概率可以表示为:。条件概率即是事件A在事件B发生的前提下发生的概率,表示为:。
而概率分布就是随机变量与其概率对应关系的函数,根据数据(随机变量)连续性的不同,可以分为离散型随机变量和连续型随机变量,因此事件发生的结果对应的概率分布也就分为离散型概率分布和连续型概率分布。
0x01 离散型概率分布
离散型概率分布的种类有很多,比较常见的有抛硬币的结果与对应概率形成的分布——伯努利分布(零一分布)、n重伯努利试验形成的二项分布、二项分布的极限分布(n->∞和p->0)泊松分布、二项分布不放回抽样版超几何分布、二项分布第一次成功版几何分布等。
1.伯努利分布(零一分布)
只有两种可能结果的随机试验对应的概率分布,如抛硬币试验。
它的概率质量函数是:
2.二项分布
重复n次相同的伯努利试验形成的结果与对应概率的分布,像n次抛硬币。
特点如下:
①每次试验只有两种结果,且两个结果只会出现一次。
②每次试验都是独立试验,每次的试验结果不受其他次试验结果的影响。
③每次试验前,如果成功的概率是p,那么失败的概率就是1-p。
那么进行n次伯努利试验,成功x次的概率(二项分布的概率质量函数)为:
由公式可以看出二项分布的概率质量函数是由试验次数n和单次试验成功的概率p决定的。
二项分布的均值为:
二项分布的方差为:
3.泊松分布
泊松分布考虑的是在连续时间或空间上发生随机事件次数的概率。简单点理解就是,基于过去某个连续的时间或者空间内发生的平均次数,预测该随机事件在未来同样长的时间或空间内发生n次的概率。
其概率质量函数由二项分布推导,假设某个时间内随机事件发生的次数为,将这段时间n等分,那么随机事件发生的概率就是。如果n趋于无穷,那么概率就无限趋近于0,也就是说,在每个等分中随机事件想发生两次或两次以上是不可能的。根据以上假定条件,在这段时间内,该随机事件发生k次的概率服从二项分布,则
泊松分布是关于历史平均次数的函数,随着历史平均次数的不同,泊松分布的形态也将改变。
泊松分布的均值和方差也可以通过二项分布的均值和方差进行推导,
均值:
方差:
4.超几何分布
超几何分布是指在有限总体中进行无放回抽样(总体数量不断减少),每次试验开始前概率都会发生变化。
超几何分布的概率质量函数即为:
以上公式表示在有限总体N中,符合要求的数值有m个,如果从总体中抽取n个,有k个是符合要求个案的概率。
表示从剩余N-m个个案中抽取n-k个个案的方法数目。
实际应用中,只要数据总体的个案数目是样本容量的10倍以上,即N>10n,就可以用二项分布近似描述超几何分布
0x02 连续型随机变量
1.指数分布
指数分布描述的是两次随机事件发生的时间间隔的概率分布情况,这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。放在二维坐标内理解,纵轴表示概率密度,横轴代表时间间隔长度,因为时间间隔长度可以取任意连续的数值,所以指数分布是一种连续型的概率分布。常见应用如,某医院平均每10分钟出生一个婴儿,求接下来5分钟内有婴儿出生的概率。
指数分布与泊松分布互补。泊松分布能够根据过去单位时间内随机事件的平均发生次数,推断未来相同的单位时间内随机事件发生不同次数的概率。而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间内,随机事件发生的概率。
指数概率分布是连续型概率分布,所以概率函数应该是概率密度函数,公式定义为:
x表示给定时间的长度,表示随机事件发生一次的平均等待时间,是的倒数,可解释为单位时间内随机事件发生的次数。
2.均匀分布
均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。
如果将离散数据结果换成连续型数据结果的取值区域,并且所有的连续型数据结果发生的概率相等,则离散型的古典概率分布就转换成为连续型的均匀概率分布。
3.正态分布
如果某个随机变量x服从正态分布,它的均值(算术平均值)和标准差是决定正态分布的两个参数。均值表示数据集合的集中趋势,而方差则表示数据集合的离散程度,正态分布的概率密度函数就由均值和方差两个自变量构成:
表示均值;表示标准差。
正太分布的概率密度函数曲线呈钟型,因此也被称为钟形曲线(类似于寺庙里面的大钟,因此而得名)。通常所说的标准正态分布曲线就是指,标准差的正态分布。
如上图所示,红色曲线即为标准正态分布曲线。
正态分布中一些值得注意的地方:
1.概率密度函数关于平均值对称
2.平均值与它的众数以及中位数同一数值
3.函数曲线下68.3%的面积在平均数左右一个标准差的范围内
4.95.4%的数据会落在平均数左右两个标准差的范围内
5.99.7%的数据会落在平均数左右三个标准差的范围内,所以以上三条经验法则被形象地称为六西格玛法则
6.99.9%的数据会落在平均数左右四个标准差的范围内
7.函数曲线的拐点为离平均数一个标准差的位置