以下内容是学习《深入浅出统计学》后整理的笔记
1. 平均数的意义
从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。
2. 何为平均数?
日常生活中,我们常常会把均值当做平均数,其实平均数包含有三类:
- 均值
- 中位数
- 众数
我们必须知道每一种平均数的本质,才能因地制宜地选用合适的方案,来度量数据集中的趋势。同时,也能弄清楚别人提供的结论是按照哪种平均数来度量的。
假设我们喜爱运动,且想通过参加健身俱乐部来愉悦自己的身心。一般情况下,我们在加入某个健身俱乐部之前,会考察一下。除了费用、场地环境,可能一个非常重要的考察因素是:该俱乐部成员的平均年龄,因为这能决定我们是否能更好地融入到这个集体。
那么,通过如下的案例来说明均值、中位数、众数的区别。
2.1 均值
骑行俱乐部目前共有15个成员,年龄和数量的对应关系如下:
年龄 | 19岁 | 20岁 | 22岁 | 24岁 | 26岁 | 27岁 | 28岁 |
---|---|---|---|---|---|---|---|
人数 | 1 | 2 | 3 | 3 | 3 | 2 | 1 |
那么,该俱乐部成员的年龄均值是:
总年龄=19*1 + 20*2 + 22*3 + 24*3 + 26*3 + 27*2 + 28*1 = 357岁
总人数=1+2+3+3+3+2+1 = 15人
年龄均值=257/15 = 23.8岁
基于以上计算结果,您的年龄越接近23.8岁,那么选择该骑行俱乐部的可能性越大。
用图表理解数据的分布是更直观的办法。上图是该骑行俱乐部的年龄分布情况,符合正态分布情况,也因此,年龄均值23.8处于中间位置。
2.2 中位数
骑行一段时间后,你发现自己的体魄增强了,但全勤参加骑行活动也有点吃不消。你想穿插一些轻松、有氧的运动,好缓解肌肉的疲劳。于是你咨询了一家太极拳俱乐部。
按照惯例,你向某家太极拳俱乐部的销售经理咨询,得知该俱乐部成员的平均年龄是25岁左右。你感觉很适合自己,但到现场报名才发现不对劲:场地上大多数是十几岁的小朋友,再加上几个祖师爷,你没法融入这样的团体。
太极拳俱乐部目前共有15个成员,年龄和数量的对应关系如下:
年龄 | 14岁 | 15岁 | 16岁 | 17岁 | 18岁 | 70岁 | 80岁 | 90岁 |
---|---|---|---|---|---|---|---|---|
人数 | 1 | 3 | 4 | 3 | 2 | 0 | 1 | 1 |
那么,该俱乐部成员的年龄均值是:
总年龄=14*1 + 15*3 + 16*4 + 17*3 + 18*2 + 70*0 + 80*1 + 90*1 = 380岁
总人数=1+3+4+3+2+0+1+1 = 15人
年龄均值=257/15 ≈ 25.3岁
如上图,观察太极拳俱乐部成员的年龄分布情况,发现:数据并不是正态分布的,从20岁到80岁之间几乎没有数据,几位祖师爷的年龄在本案例中是异常值(极值),拖了一个长长的尾巴,与整体数据并不十分协调。因此,本案例如果采用均值算法并不能让我们满意。这种情况下,就该平均数中的中位数出场了。
所谓“中位数”,就是一批数据的中间值。如上例:
年龄值按照人数展开、排序后得到的序列如下:
[14, 15, 15, 15, 16, 16, 16, 16, 17, 17, 17, 18, 18, 80, 90]
该序列的中间位置是第8位,对应的值是16。显然,在本案例中,中位数16比均值25.3更好。
2.3 众数
显然,太极拳俱乐部的年龄平均数(中值)16不符合你的期望。于是,你的目光转向了一家游泳俱乐部。有了上次的经验,你向销售顾问咨询时,不仅问了均值还问了中位数,得到的答案是:它们差不多,大概在18~19岁左右。
于是你兴高采烈地来到了游泳馆,都准备报名了,可又一次让你失望了。你发现这个俱乐部是个“亲子”俱乐部,是家长带着孩子玩儿的!
游泳俱乐部目前共有14个成员,年龄和数量的对应关系如下:
年龄 | 3岁 | 4岁 | 5岁 | 6岁 | 31岁 | 33岁 | 35岁 | 38岁 |
---|---|---|---|---|---|---|---|---|
人数 | 1 | 3 | 2 | 1 | 1 | 3 | 2 | 1 |
该俱乐部成员的年龄均值是:
总年龄=3*1 + 4*3 + 5*2 + 6*1 + 31*1 + 33*3 + 35*2 + 38*1 = 269岁
总人数=1+3+2+1+1+3+2+1 = 14人
年龄均值=269/14 ≈ 19.2岁
该俱乐部成员的年龄中位数是:
年龄值按照人数展开、排序后得到的序列如下:
[3, 4, 4, 4, 5, 5, 6, 31, 33, 33, 33, 35, 35, 38]
该序列的中间位置是第7、8位,对应的值是6、31,
中位数=(6+31)/2 = 18.5岁
但显然,亲子游泳俱乐部中没有一个18~19岁的人,你肯定很难融入到这样的集体中去锻炼身体。
如上图,游泳俱乐部成员的年龄分布情况看起来不像是一批数据,而像是两批数据,即:一批是孩子的、一批是家长的。显然这种情况下,均值、中位数都不适用了。这种情况下,就要用到众数了。
众数是一批数据中最常见的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是最频繁出现的数值。
在游泳俱乐部中,4岁和33岁出现的频率最高,因此这两个年龄都是众数。也就是说本亲子游泳俱乐部适合33岁左右的家长带上4岁左右的孩子。
3. 关于平均数的总结
3.1 3种平均数的对比
平均数 | 计算方法 | 何时使用 |
---|---|---|
均值 | μ=∑fx/∑f,x是每个数值,f是每个x的频数。 | 在数据分布比较对称,且仅显示出一种趋势时使用。 |
中位数 | 将所有数据按照升序排列。如果有奇数个数值,则中位数为中间的数值;如果有偶数个数值,则中位数为两个中间数值相加除以2的结果。 | 在数据集由于异常值而发生偏斜时使用。 |
众数 | 选出具有最大频率的一个或几个数值。 | 当数据可以分为两个或更多组时使用。 |
3.2 众数能用于类别数据
众数不仅能用于数值型数据,还能用于类别数据。事实上,众数是唯一能用于类别数据的平均数类型。
3.3 啊哈
每个人都会使用最有利于自己意愿的平均数。所以,在听取报告的时候,仅知道平均数的值是不够的,还要了解是哪一种平均数(均值、中位数、众数),以及选用这种平均数是否符合数据集的分布情况。
统计量能够提供信息,但使用不当也能造成误导。