均值
将所有的数加起来,然后除以数字的个数,这个就是均值,也是我们在计算平均值时最常用的方法。
在计算均值时,我们需要将所有的数字进行相加,通常是这样:
而为了简化,我们通常用符号∑来表示相加(读作西格玛),上边的相加数学式可以如下表达
均值是最常用的一个平均值,它有一个专门的符号来表示µ(读作缪),所以上述均值表达式如下:
但是有时候我们会发现如果一组数字中有一个特别大的值或者特别小的值,会极大的影响最后的均值,使得数据可能无法真实的反映平均的状况,比如,把马云的财富和一些工薪阶层的财富作均值平均,会发现他们的平均财富非常大,但实际情况是只有马云一个人的财富非常大。在这里,马云的财富值就是一个异常值,而对于这种情况我们有个专有名词叫数据偏斜。
中位数
当数据发生倾斜时,我们往往还要看另外一个数值,叫“中位数”,顾名思义就是处在中间位置的数。比如:我们找了9个人,他们的财富值按从小到大的升序分别是:2万,3万,3万,4万,5万,6万,20万,30万,2亿。这个时候处于中间的是第五个数值:5万,那么5万就是这组数字的中位数。
当有10个人进行统计时,中位数就要计算第5个和第6个数值的均值作为中位数。
众数
有时候均值和中位数都无法反应实际情况,尤其是数据的分布是两边极大值,极小值偏多,中间值偏少时就会出现偏差,这种情况下我们就需要众数。
比如下边的一组数据:
财富值 (万) | 频数 |
---|---|
3 | 2 |
6 | 10 |
20 | 30 |
300 | 3 |
1000 | 1 |
这组数据中有20万财富的人数最多有30个,所以这组数据的众数就是20万,也就是说频次最多的数就是众数。
方差和标准差
有时候我们希望度量各个数值相对于均值的距离是怎样的,也就是衡量数值相对于均值是很分散,还是相对集中,这个时候我们怎么计算呢?最初的想法可能是这样的,使用如下方式计算平均距离
我们看一个实际的例子,假设一个公司上半年的销售额如下表所示:
月份 | 销售额(万) |
---|---|
1 | 20 |
2 | 30 |
3 | 30 |
4 | 50 |
5 | 50 |
6 | 60 |
上半年销售额的均值很容易计算是40万,那么我们计算下平均距离
可以看出这里有一个问题,就是这样求和之后总是为0,因为有大于均值的数值减去均值得正,而小于均值的数值则为负,最后相加为0,因此这样无法反应平均距离。此时我们的方差出场了。
为了不出现负值,我们让这个距离值都平方后再相加,如下:
具体到我们的例子,计算如下:
[(20-40)²+(30-40)²+(30-40)²+(50-40)²+(50-40)²+(60-40)²]/6 = 200
方差毕竟是平方后的结果,在反映平均距离的时候不够直观,因此我们通常再取其平方根,这样就得到了标准差(也叫均方差),使用符号小写的西格玛表示,如下: