常用的数据分布
-
正态分布
正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。正态分布在统计学上十分重要
若随机变量 X服从一个位置参数为 、尺度参数为 的正态分布,记为:根据参数的取值不同,图形展现为不同的形式,决定了图形对称轴在x轴的位置,决定了图形的窄扁程度。
- 二项分布
在概率论和统计学中,二项分布(英语:Binomial distribution)是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。二项分布是显著性差异的二项试验的基础。
一般地,如果随机变量X服从参数为n和p的二项分布,我们记X~b(n,p)或 X~B(n,p)。n次试验中正好得到k次成功的概率由概率质量函数给出:
对于k=0,1,2...n, 其中
- 泊松分布
泊松分布(Poisson distribution),是一种统计与概率学里常见到的离散机率分布,泊松分布的概率函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
泊松分布的期望和方差均为
应用场景
在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)
- 均匀分布
均匀分布(Uniform Distribution),均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
均匀分布的概率密度函数为:
在两个边界a和b处的f(x)的值通常是不重要的,因为它们不改变任何
的积分值。 概率密度函数有时为0,有时为
卡方分布
卡方分布(chi-square distribution),也称西格玛分布,若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。-
beta分布
Β分布也称贝塔分布(Beta distribution),是指一组定义在 (0,1)区间的连续概率分布,有两个参数 , >0
Β分布的概率密度函数是:
其中 是Γ函数。随机变量X服从参数为 的Β分布通常写作
X~Be( )