数据分析用的“平均值”，并不平凡（深度理解统计）

· 帮助业务人员分析业务时选择合适的指标

· 帮助数据人员理解采用的数据指标的原理

平均值和比例具有相同的本质

平均值和比例的本质含义是集中趋势

我们常常通过数据统计的平均值，来反映一组分散数据的真实状况。就是这个我们几乎每个人都会用的平均值，在它的背后存在着比统计学思维更早的深刻思考。接下来你将惊异到，这看似简单的值背后的思考竟如此复杂。

通常用数字来描述的量化的信息可以称为定量变量，对于不是数字而是用数字文字描述的非定量的信息称为定性变量。定量变量用来描述数量上的大小，定性变量用来描述性质上的不同。

那么为什么说平均值和比例具有相同的本质呢？

举个例子，调查100个人职业有30个学生，20个教师，50个职员。学生、教师、职员是作为定性变量，统计的人数的数字是定量变量。可以很容易得出学生的占比是30%，这是一个比例。

我们把定性变量转换成定量变量，调查100个人职业中“学生的程度”，也可以“学生的趋势”，得到的结果要么是，要么不是。

我们将是学生赋值为1，反之赋值为0，统计后会得到30个1和70个0，平均值是0.3。同理，教师的占比是20%，教师的程度的平均值是0.2。

可以将这种同时具有定性变量和定量变量特征的，可以量化的定性变量作为一种特殊变量情况来处理。这种只能取到1和0两个值的变量，被称为二值变量。

可以说，能用在平均值的数学性质，基本都可以用在比例上。

区间比数值更能反映实际状况

要从幅度而不是点来把握数据

这里的数值就是“点”，就是平均值或比例。通常我们在汇总数据时，会用大概处在中心的那个值来理解数据的分散程度，但这并不一定科学。

例如，在一个已经平衡的天平上左右增加相同重量，天平还是保持平衡。如果通过杠杆原理，在一侧添加两个个单位重量，另一侧2倍距离增加一个单位重量，天平依然平衡。我们看到的平均值一直是那个中心点，这唯一的点无视了很多信息，比如数据的分布情况。

因此统计学中又诞生了把握“数据大约在何种范围内存在”这一幅度的方法，以此来反应真实情况

为何是“平均值”作为代表值

中位数和众数在“洞察”的统计学中不需要太过在意，平均值是基于最小二乘法，考虑将观测值的偏差最小化时的优良推测值。

作为一个代表值，它最大的价值就是接近真值。

现在有一栋楼需要我们预测高度，ABC三个人分别给出了10m、12m、13m的预估值。接下来我们要汇总这组数据，做出我们的预测代表值。如果真值是12m，3个人共产生了3m的误差；如果真值是100m则合计误差是265m。很显然，有较小偏差的数据更值得信赖。

使得观测值和真值之间的偏差总和最小的值，即“最值得信赖的值”，实际上就是中位数。在“把握现状”时，为了把握分布不对称的数据的整体情况，使用中位数比平均值更好。

但是中位数的计算需要先排序，还要取绝对值，但现在来看这已经不怎么困难了。当时为了解决取绝对值的问题，将偏差平方即产生了最小二乘法。根据最小二乘法从偏差的数据中推测真值，平均数成为了最适合的值。

如果排除计算繁琐的问题，平均值比中位数更优越的原因是什么呢？这得问高斯。

为何“平均值”能反映真实情况

1.从洞察因果的角度看，平均值更能针对我们关注的问题给出直接的答案

2.无论原始数据的分布方式，多次抽取数据计算的平均值会收敛于正态分布，这时的最优的推测值平均值。

洞察因果关系时，我们所关心的是如何让将某种结果的总值最大化或最小化，以及改变一些因素结果的总值会如何变化。对于以上问题中位数不能给出答案。

对于我们把握现状和洞察因果需求，中位数的增减我们无法计算它对总量的影响，反之总量的增减也可能不会影响到中位数的值。

高斯思考了“平均值作为真值的高质量推测的条件是什么”，然后他发现了高斯分布，也就是现在称为正态分布的数据分散规律。他得出的结论是，如果数据的分散服从正态分布，最小二乘法就是最优的推测方法，作为其结果，平均值就是最优的推测值。

正太分布在英文中是normal distribution，直接翻译就是正常分布。我们在做统计时许多数据的分布方式都是符合正态分布的，因此我们用的平均值一般是可以反映真实情况的。并且即使原始数据不服从正态分布，将几个数值加总起来，大多也会收敛于正态分布，这被称为中心极限定理，是现代统计学的重要基石。

高斯发现数据呈正态分布时，平均值是推测真值的最优解。马尔可夫和李雅普夫又证明了如果数据与真值的偏差不只由单一原因造成，而是由许多微小的偏差综合而成，也仍服从正态分布。这意味着只要是对数据背后的真值有兴趣，就可以用平均值来做推测。

无论原始数据的分布方式如何，只要不断重复从数据中抽取部分值来计算平均值，根据中心极限定理，重复计算得到的多个平均值会收敛于正态分布。

所以如果不是想把握“用户是何种群里”的现状，而是要洞察“采取某种行动能多大程度上提升业绩”这种因果关系，需要知道的真值，就是采用和没采用该行动的情况下的销售额的差别。

实际获得的数据和真值之间可能存在差异，顾客的多样性是造成这种差异的原因之一。但也请放心使用平均值，因为它不是相加再相除的简单计算，而是凝结了大数学家们智慧的伟大方法。

实际值与真值之间存在的差异有多大，就得看看标准差了。

拓展“代表值”发现真实数据的范围

在区间上把握数据可以更接近事实

我们在把握一组数据是需要一个代表值，平均值就是实际数据“与代表值的偏离程度”最小时的，那个代表值的数值。使用“实际数据与平均值偏离程度的平方和”就可以判断数据的分散程度的大小。二者的结合我们就可以把握一组数据的代表值的区间了。

可是这也有一个问题，如果我们用“实际数据与平均值偏离程度的平方和”来判断数据的分散程度的大小。当数据量增大时，“实际数据与平均值偏离程度的平方和”也会增大。

既然如此，那就用“偏差平方的平均值”代替“偏差的平方和”来表现数据的分散程度。这便是方差最基本的思考方法。

在统计描述中，方差用来计算每一个变量（观察值）与总体均数之间的差异。实际上，我们很难获取总体均数，常常是使用样本数据的平均值，经校正后，样本方差计算公式：

这里可以发现公式中除以的是样本例数-1，这种计算出来的值称为无偏方差，有科学的证明无偏方差能更好反映真实情况，这里不再多说。

上图A的方差是4，B的方差是1，通过方差我们看出实际值与平均值偏差程度，A比B的高的。但是还不够好，我们希望这个偏差程度能更有实际意义，于是找到了标准差，英文缩写SD。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根，可以理解为对方差开平方。

上图A的标准差是2，B的标准差是1，这样算下来我们也可以理解了A的真实数据浮动在平均值5，B的真实数据是分布在平均值5。

“标准差”和“平均值”辅车相依洞察真相

利用平均值和标准差的组合，可以把握“数据大体分布范围”的现状

如果数据本身就服从正态分布，那么平均值SD这个范围中，将包含68.3%的数据；在平均值2SD（准确的应该是1.96SD）这个范围中，将包含95%的数据。

如果数据不服从正态分布，无论数据分布方式如何，在在平均值2SD（准确的应该是1.96SD）这个范围中，一定包含全体75%以上的数据。

从柱形图可以看出，未投广告的组别平均购买金额是3000，标准差500，投放广告的组别平均购买金额是7000，标准差1000。

如果在投放广告时没有刻意挑选可能产生高消费的人群，而是随机投放，出现这样的结果就要考虑其中的因果关系。

两组平均值2SD的范围并没有重合，意味着两组数据必然有一组受到了某种因数的影响。所以可猜想是否投放广告（解释变量）与销售额（成果指标）之间存在某种关联。

换一种说法，如果广告投放是无效的，那么是否投放广告，销售额应该是重合于两者的平均值2SD。而我们发现实际上两组平均值2SD的范围并没有重合，则证明广告投放是有效的，即投放广告与销售额提升存在因果关系。

参考资料：李晨译【日】西内启著《统计思维》浙江人民出版社