如何用平均数度量集中趋势?


以下内容是学习《深入浅出统计学》后整理的笔记


1. 平均数的意义

从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。


2. 何为平均数?

日常生活中,我们常常会把均值当做平均数,其实平均数包含有三类

  1. 均值
  2. 中位数
  3. 众数

我们必须知道每一种平均数的本质,才能因地制宜地选用合适的方案,来度量数据集中的趋势。同时,也能弄清楚别人提供的结论是按照哪种平均数来度量的。

假设我们喜爱运动,且想通过参加健身俱乐部来愉悦自己的身心。一般情况下,我们在加入某个健身俱乐部之前,会考察一下。除了费用、场地环境,可能一个非常重要的考察因素是:该俱乐部成员的平均年龄,因为这能决定我们是否能更好地融入到这个集体。

那么,通过如下的案例来说明均值、中位数、众数的区别。

2.1 均值

骑行俱乐部目前共有15个成员,年龄和数量的对应关系如下:

年龄 19岁 20岁 22岁 24岁 26岁 27岁 28岁
人数 1 2 3 3 3 2 1

那么,该俱乐部成员的年龄均值是:

总年龄=19*1 + 20*2 + 22*3 + 24*3 + 26*3 + 27*2 + 28*1 = 357岁
总人数=1+2+3+3+3+2+1 = 15人
年龄均值=257/15 = 23.8岁

基于以上计算结果,您的年龄越接近23.8岁,那么选择该骑行俱乐部的可能性越大。

用图表理解数据的分布是更直观的办法。上图是该骑行俱乐部的年龄分布情况,符合正态分布情况,也因此,年龄均值23.8处于中间位置。

2.2 中位数

骑行一段时间后,你发现自己的体魄增强了,但全勤参加骑行活动也有点吃不消。你想穿插一些轻松、有氧的运动,好缓解肌肉的疲劳。于是你咨询了一家太极拳俱乐部。

按照惯例,你向某家太极拳俱乐部的销售经理咨询,得知该俱乐部成员的平均年龄是25岁左右。你感觉很适合自己,但到现场报名才发现不对劲:场地上大多数是十几岁的小朋友,再加上几个祖师爷,你没法融入这样的团体。

太极拳俱乐部目前共有15个成员,年龄和数量的对应关系如下:

年龄 14岁 15岁 16岁 17岁 18岁 70岁 80岁 90岁
人数 1 3 4 3 2 0 1 1

那么,该俱乐部成员的年龄均值是:

总年龄=14*1 + 15*3 + 16*4 + 17*3 + 18*2 + 70*0 + 80*1 + 90*1 = 380岁
总人数=1+3+4+3+2+0+1+1 = 15人
年龄均值=257/15 ≈ 25.3岁

如上图,观察太极拳俱乐部成员的年龄分布情况,发现:数据并不是正态分布的,从20岁到80岁之间几乎没有数据,几位祖师爷的年龄在本案例中是异常值(极值),拖了一个长长的尾巴,与整体数据并不十分协调。因此,本案例如果采用均值算法并不能让我们满意。这种情况下,就该平均数中的中位数出场了。

所谓“中位数”,就是一批数据的中间值。如上例:

年龄值按照人数展开、排序后得到的序列如下:
[14, 15, 15, 15, 16, 16, 16, 16, 17, 17, 17, 18, 18, 80, 90]

该序列的中间位置是第8位,对应的值是16。显然,在本案例中,中位数16比均值25.3更好。

2.3 众数

显然,太极拳俱乐部的年龄平均数(中值)16不符合你的期望。于是,你的目光转向了一家游泳俱乐部。有了上次的经验,你向销售顾问咨询时,不仅问了均值还问了中位数,得到的答案是:它们差不多,大概在18~19岁左右。

于是你兴高采烈地来到了游泳馆,都准备报名了,可又一次让你失望了。你发现这个俱乐部是个“亲子”俱乐部,是家长带着孩子玩儿的!

游泳俱乐部目前共有14个成员,年龄和数量的对应关系如下:

年龄 3岁 4岁 5岁 6岁 31岁 33岁 35岁 38岁
人数 1 3 2 1 1 3 2 1

该俱乐部成员的年龄均值是:

总年龄=3*1 + 4*3 + 5*2 + 6*1 + 31*1 + 33*3 + 35*2 + 38*1 = 269岁
总人数=1+3+2+1+1+3+2+1 = 14人
年龄均值=269/14 ≈ 19.2岁

该俱乐部成员的年龄中位数是:

年龄值按照人数展开、排序后得到的序列如下:
[3, 4, 4, 4, 5, 5, 6, 31, 33, 33, 33, 35, 35, 38]

该序列的中间位置是第7、8位,对应的值是6、31,
中位数=(6+31)/2 = 18.5岁

但显然,亲子游泳俱乐部中没有一个18~19岁的人,你肯定很难融入到这样的集体中去锻炼身体。

如上图,游泳俱乐部成员的年龄分布情况看起来不像是一批数据,而像是两批数据,即:一批是孩子的、一批是家长的。显然这种情况下,均值、中位数都不适用了。这种情况下,就要用到众数了。

众数是一批数据中最常见的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是最频繁出现的数值。

在游泳俱乐部中,4岁和33岁出现的频率最高,因此这两个年龄都是众数。也就是说本亲子游泳俱乐部适合33岁左右的家长带上4岁左右的孩子。


3. 关于平均数的总结

3.1 3种平均数的对比

平均数 计算方法 何时使用
均值 μ=∑fx/∑f,x是每个数值,f是每个x的频数。 在数据分布比较对称,且仅显示出一种趋势时使用。
中位数 将所有数据按照升序排列。如果有奇数个数值,则中位数为中间的数值;如果有偶数个数值,则中位数为两个中间数值相加除以2的结果。 在数据集由于异常值而发生偏斜时使用。
众数 选出具有最大频率的一个或几个数值。 当数据可以分为两个或更多组时使用。

3.2 众数能用于类别数据

众数不仅能用于数值型数据,还能用于类别数据。事实上,众数是唯一能用于类别数据的平均数类型。

3.3 啊哈

每个人都会使用最有利于自己意愿的平均数。所以,在听取报告的时候,仅知道平均数的值是不够的,还要了解是哪一种平均数(均值、中位数、众数),以及选用这种平均数是否符合数据集的分布情况。


统计量能够提供信息,但使用不当也能造成误导。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容