分布以数学的方式刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为在数值上或类别上定义的概率分布。正态分布的形状是我们熟悉的钟形曲线形状。大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件。
中心极限定理告诉我们,只要把随机变量加总或求其平均值,就可以期望获得正态分布。许多经验现象,特别是像销售数据或投票总数这样的总量数据,都可以写成随机事件总和的形式。正态分布意味着不会有太大的偏差。
一、正态分布
分布为事件或价值分配概率。各种统计量将分布中包含的信息压缩为单个数值,例如均值,分布的平均值。均值之外的第二个重要统计量是方差,可以衡量一个分布的离散程度,也就是数据与均值之间距离的平方的平均值。分布的标准差是另一个常用的统计量,等于方差的平方根。
二、中心极限定理
只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。
中心极限定理一个非常重要的特征是,随机变量本身不一定是正态分布的。它们可以有任何分布,只要每一个随机变量都具有有限的方差,并且它们中的任何一小部分随机变量都不贡献大部分方差。
三、运用
1、平方根法则(The square root rules)
N个相互独立的随机变量,都具有标准差σ,对这些随机变量的均值的标准差σμ和对这些随机变量总和的标准差σΣ,分别由以下公式给出:
均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。
2、检验显著性
可以利用正态分布的规律来检验各种平均值的显著性差异。如果经验均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种均值相同的假设。
3、六西格玛方法
六西格玛方法是摩托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分布对产品属性进行建模。
六西格玛方法涉及缩减标准差的大小从而降低生产出不合格产品的可能性。各企业可以通过加强质量控制来降低误差率。
四、对数正态分布:乘法冲击
中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。事实上,一般情况下都不会是。
独立随机变量之间的乘积就不是正态分布,而是对数正态分布。百分比加薪方法与绝对金额加薪方法两者之间的区别乍一看似乎只是语义上的区别,但其实不然。如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪,就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加剧。