数学并不能代替判断 | 查尔斯·惠伦 《赤裸裸的统计学》

何舒卉/文
统计学可以通过搜索、整理、分析、描述等手段推断所测对象的本质,甚至预测对象的未来。信息越来越丰富的大数据时代,统计学的力量空前强大。
相关性体现的是两个现象之间相互关联的程度,如气温和冷饮销量、身高和体重。如果其中一个变量的改变引发另一个变量向相同的方向变化,那么这两个变量存在正相关性;反之,就是负相关性,如运动量越大体重越轻。
相关性作为一个统计工具的魅力就在于将两个变量的关联精炼成一个描述性数据:相关系数。而相关系数能够将大量芜杂无序、单位不一的复杂数据加工成一个简洁、优雅的描述性数据。
聪明地运用统计学,不仅可以看清复杂问题的本质,搞清现在的问题,而且可以对未知的情况进行预测。这种预测,已经广泛地运用于我们身边。保险公司推销员和信用卡公司就一直处在这类分析的前沿。某种程度上,他们比你本人更了解你出险或者不按期还款的可能。
回归分析是一种统计学工具,能够在控制其他因素的前提下对某个具体变量与某个特定结果之间的关系进行量化,从而将某个变量的效果给分离出来。
统计学分析发现,并不是“权力越大,责任也越大”的压力置人于死地,而是那种等着上司布置任务,但又没有权力决定怎么完成、何时完成的压力把人压垮了。那些决定公司命运的高管,承受的风险远小于他们兢兢业业接听电话、完成上级交代各种任务的秘书。
在投资者眼里,Facebook拥有一项庞大的无形资产:数据。投资者愿意投资并不是因为这个网站能够让他们与大学时的恋人重新取得联系,而是因为注册用户每一次点击鼠标都在不经意间泄露了他们的信息。Facebook产品副总裁克里斯·考克斯对《纽约时报》说:“信息时代的挑战是如何处理这些信息。”
盖洛普民意调查和研究机构认为,一个符合统计学方法、包含1000个家庭的样本能够代表美国所有家庭,两者的调查结果基本能够保持一致。可以想见,样本的数量越大,误差就越小。
如果一个赌徒连续10次用骰子掷出6点赢了很多钱,当然可能是因为他的运气太好了,但也有可能是他采取了某种不为人知的作弊手段。因为一个正常的骰子,连续10次掷出6点的可能约为1/60000000。统计学无法确凿地证明任何东西,但统计推断的力量在于:先发现一些规律和结果,然后再利用概率来推断这些结果背后最有可能的原因。
统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所有信息的“大”问题。简言之,能够使用“已知世界”的数据来对“未知世界”进行推断。
统计学最强大的一点在于,由一个在合理范围内足够大并且正确抽取的样本中推导出来的结论,能够准确地反映全貌。

平均数还是中位数

在西雅图一家酒吧里坐着10位顾客,他们的年收入都是3.5万美元。这时,比尔·盖茨走进了酒吧,坐下点了一杯酒。假设盖茨当时的年收入是10亿美元,这组人的平均年收入上升到9100万美元。但“有11个平均年收入9100万美元的人在酒吧里”这个事实,还是与真正的事实有些区别。因为很显然,其他人并没有因为盖茨的加入而变得更富有。这种区别是由于平均数受到了强大“异常值”的影响。剔除这种影响的办法,是采用中位数——位于中间位置的数值。在这个例子里,中位数就是第6位顾客的年收入,仍然是3.5万美元。
一组数据的“中间位置”也就是统计学所说的“集中趋势”往往具有特别的意义。但是,“平均数”和“中位数”却可能差之千里。两者都是真实的,采用哪一个则大有文章。

绝对数还是相对数

“绝对”数具有与生俱来的意义,在没有任何背景和额外信息时仍然能被理解,比如温度和身高。“相对”数必须参与比较或处在一个更大的背景中才有意义,比如增长率和合格率。两个都客观真实的数据,却给了不同的人做出不同解读的空间。
伊利诺伊州个人所得税税率上调,支持的一方说“税率上升了两个百分点”(显得很轻微),反对的一方说“税率上升了67%”(显得很严重)。事实上,该项税率从3%调整为5%,双方说的都正确,但给人的感受显然不同。

无论是中位数还是平均数,无论是绝对数还是相对数,求出它们并不难,关键在于根据具体情况确定哪一个“中间位置”能够更准确地反映问题的实质。这依赖于人的判断。所以任何一个综合的数据分析都应该包含这两个数据。如果只有一个数据出现,我们就要当心了——是不是有人在别有用心地使用数据达到某种目的。

我们的老朋友百分率本身虽然是真实的,但也会“夸大”或“缩小”事实的实质。
比如,某地居民发现,税款中用于支持肺结核养老院的比例上升了527%——大吃一惊的人们立刻准备抗议——但实际增加的负担还不够买一个火鸡三文治。当一项数据是基于一个很低的基数时,哪怕很小的一点变化,体现在百分率上都可能是惊人的。
与之相反,在一个庞大数额上的微小比例也会使一个很大的数字显得不那么醒目。例如美国2013年军费开支增长4%,看似不多,但考虑到基数是7000亿美元,4%就是280亿美元——超过了美国国家航空航天局(NASA)的全部预算,相当于美国劳工部和财政部预算的总和。
评价某所学校,最直观的指标就是参考一些机构做的“排名”。这符合大众心理——人们喜欢看简单的答案。这些排名依据许多指标并各有权重,十分精确(不等于准确)。虽然采用了各种统计学方法,但从统计学的角度看,这些排名却总有一些让人捧腹的地方。
美国持枪权利支持者说,枪支本身不会犯错,犯错的是使用的人。借用他们的话,统计学本身作为一门科学,发挥作用的关键也是使用的人。作为认知世界的一个有力工具,了解并善用统计学,会让人们做出更理性的判断,也将给他们带来更大的力量。

蒙提·霍尔悖论

1963年美国开播了一档电视游戏节目——《让我们做个交易》。这个节目在美国概率课本中占有一席之地,是因为有一个著名的“蒙提·霍尔悖论”。
每期节目的获胜者,都会面对3扇门。其中两扇门后的奖品是一只羊,另一扇门后是一辆汽车。参赛者会选择一扇门并获得后面的奖品。精彩的地方在于:参赛者做出选择后,主持人蒙提·霍尔会拉开另两扇门里的一扇,后面一定是一只羊(他知道哪扇门后有汽车),然后,他问参赛者是否改变当初的选择。
坚持还是改变呢?答案是确定的。如果坚持原来的原则,得大奖的概率是1/3;如果改变选择,得大奖的概率会增加1倍。
这好像有违直觉,参赛者中大奖的概率不一直是1/3吗?我们换个角度想想,也许会发现不同。如果参赛者选择一个门之后,主持人提供一个放弃之前的选择换取另外两扇门后面奖品的机会,显而易见,应该放弃一扇门选择两扇门。至于他打开一扇“羊门”,不过表示“你有2/3的概率中大奖,而我已经帮你排除一扇门了”。
事实也证明,改变选择的参赛者中大奖的人数是坚持最初选择的参赛者的2倍。所以,掌握一些统计学知识,有助于我们把握机会并做出正确的抉择。

概率学

概率学是一门研究不确定事件和结果的学问。所以,遇到此类事件时,我们可以借助概率的力量。通过概率的计算,我们还可以得到在管理决策的过程中,尤其是在金融领域最实用的统计工具——期望值。期望值是基础概率学的升级版,在面对复杂抉择时,它可以帮助我们理清思路、做出决策。

期望值

期望值会在我们面临一个高风险、高回报的项目时,帮助我们判断是否应该投资。有钱人和风投公司喜欢这样的项目,因为虽然不能保证每一个项目都成功,但是众多项目平均下来,总是会赚钱的(还是大数定律)。至于等着钱还房贷、养孩子的普通人,还是慎重为妙。

正态分布

正态分布是统计学里最重要、最有用、最常见的分布之一。数据的分布一般都是对称的,以平均数为中轴呈现类似于“钟”的形状。
正态分布来自于一个事实,有68.2%的数值位于平均值1个标准差范围之内,有95.4%的数值位于2个标准差范围之内,有99.7%的数值位于3个标准差范围之内。
标准差是用来衡量数据相对于平均值的分散程度的。它是衡量离散的指标,反映了分散在平均值周围的数据的聚合程度。对任何一组数据,只要知道了平均数和标准差,就能进行统计分析并得出可以信赖的结论。

中心极限定理

我们只需要对1000个美国人进行电话调查,就能知道美国总统大选的得票情况;我们通过对一家禽肉加工厂生产的100块鸡胸肉进行沙门氏菌检测,就能得出这家工厂所有肉类是否安全的结论。这种“一概而论”的强大能力绝大部分来自中心极限定理。
中心极限定理是许多统计活动的“动力源泉”,这些活动存在一个共同特点,就是使用样本对一个更大数量的整体进行推理。这种看上去带有神秘色彩的推理,实际上是概率和抽样调查两个统计学工具结合的产物。根据中心极限定理,任意一个群体的样本平均值,都会围绕在该群体的整体平均值周围,并且呈正态分布。
如果我们掌握正确抽取样本信息的方法,就能对其所代表的群体做出十分准确的推理。
所以,如果你从某个研究群体中多次随机抽取数量足够多的样本,那么不论该群体自身的分布情况如何,这些样本的平均值会以整体平均值为中心呈现正态分布;绝大多数的样本平均值都会紧紧围绕在整体平均值的周围,通过计算标准误差就可以知道这些样本平均值到底离得“远”还是“近”;通过中心极限定理,我们可以知道样本平均值与整体平均值之间的距离及其概率,样本平均值离整体平均值2个标准差的概率较低,3个或以上标准差的概率基本为0;如果出现了某个概率极低的结果,我们便可以推测是不是有其他因素介入,而且概率越低,其他因素介入的可能性就越大。
上面这些基本包括了统计推断的所有内容。统计推断的力量在于:先发现一些有规律的结果,然后再利用概率来证明这些结果背后最有可能的原因。
从方法上说,把相关关系解释为因果关系、因果倒置、遗漏变量、脱离数据进行推断等,都有可能使统计结果发生错误并造成严重后果。
所以,始终保持清醒头脑和理性判断,既认识到统计学的力量,也了解它的局限十分重要。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容

  • 第一章 统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所有信息的“大”问题。简言之...
    黑眼圈圈阅读 732评论 0 2
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,393评论 1 58
  • 由于最近工作上都做数据分析的内容,所以根据众产品大神推荐的数据分析应读书单找了不少书来充电。《赤裸裸的统计学》是第...
    SanCode阅读 4,905评论 0 10
  • 本文是《赤裸裸的统计学》一书的笔记、总结和思考。主要是个人梳理和沉淀知识之用,有兴趣的话可以看看原书。 统计学有什...
    Cyyyyyyyy阅读 3,381评论 1 16
  • 2008年正在上大学,那个时候第一次接触股票,当时学校开了一门证券投资课,也是从那个时候知道了股票、基金等理财方式...
    静女城隅阅读 197评论 0 4