不知道从什么时候开始,每个人的身边都充斥着大量宣泄焦虑的文章跟数据。相信大家对前段时间被“你的同龄人正在抛弃你”之类的文章刷屏还记忆尤新,各种如何“月入十万”的公众号文章更是比比皆是。
如果你因为这些而焦虑,我推荐你看一本书——《统计数字会说谎》,看完之后,相信你能够更为理性、客观的看待数据,从而克服无谓的焦虑。
《统计数字会说谎》这本书是美国统计专家达莱尔·哈夫的传世之作,该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。自50年代出版以来,此书不断再版,并被翻译成多种文字,在世界的影响力持久不衰,被誉为美国商业人士、研修人员的重要入门必修书之一。
这本书读起来难度不大,前九章对统计数字说谎的方式进行了介绍。第十章我认为是本书的精华所在,作者总结了读统计数字的一些简要原则。
这本书的一个不足之处是,由于出版的年代比较远,有些书中的例子明显已经不那么贴合时代了,但是读书最重要是领悟精神内核,例子只是辅助理解之用,也就瑕不掩瑜了。
那么,统计数字的说谎方式有哪些呢?
1. 内在有偏的样本
作者为了说明样本选取能够影响统计结果,举了一个平均工资的例子。读懂这个例子,可以使我们摆脱大部分“月入十万“的焦虑陷阱。
一则之前的新闻报道:“1924级的耶鲁毕业生平均年收入为25111美元。”
回到当时的背景,初看这组数据,会有两个明显的感觉,平均年收入如此精确以及如此之高。但事实上,这组数据是从一组有偏的样本得出的,并不具备普适性。样本有偏是因为这些样本是由能够取得联系并且愿意回答问卷的1924级耶鲁学生组成。
这也就能解释为什么一夜之间,我们的同龄人都“月入十万”了。
2.精心挑选的平均数
在统计领域,平均数的种类很多,均值、中值等等。正因为此,当被告知某个数是平均数,但却不知道具体种类时,这个数的含义往往没有我们想象的大。而当我们看到诸如“平均收入”这类字眼时,也应该多问问,是哪种平均?并且都包含了哪些人?
3.没有披露的数据
在看一组统计数据时,往往要深挖表面数据背后的东西。正如一名统计专家的建议,当你被告知一组调查结果时,反问:“为了得出这个结论,你调查了多少名被访者?”
没有披露的数据有两类:确定样本边界的数据;表明事物变动范围以及给定平均数的偏离水平的数据。
4.毫无意义的工作
所有的抽样研究都存在误差,忽略这些误差将会使这项统计毫无意义。
5.令人惊奇的图形
有一句口诀,“字不如表,表不如图”。但是图形有时能够给你带来极大的误导。只需要改变纵坐标和横坐标的比例,就能得到一个你想要的“完美”的图形。
这两张图形是一样的,仅仅改变了纵坐标的比例,就得到了两条截然不同的趋势线,这种方法在绘制增长图时,已经被很多人采用了。所以当我们在看一张图时,更要注意图上的数据。
6.一维图形的滥用
很多人会使用象形图来达到自己统计的目的。我们仍然看两张图。
比例都是1:2,但是第二张象形图给人的比例则是1:4。
7.不完全匹配的资料
不完全匹配的资料是一种保证你处在有利位置上的武器,而且屡试不爽。一般的做法是将看上去极像、而完全不同的两件事混淆在一起。
8.相关关系的误解
在使用相关性关系时,要注意分辨这个相关是否是事件变迁的产物或时代趋势的产物,否则就是对相关关系的误解。
在学习了统计数字能够说谎的方式后,再看到统计数据时,应深挖数据背后的含义,因为统计数据,有时会被利用并成为恶意夸大和迷惑他人的工具。
那么在拿到一组统计数据之后,我们应该怎么做呢?如何平双眼识破虚假的统计资料,并揭开它的老底,同时在这一大片充满了欺骗性的数据海洋中找出可靠有用的资料。
问自己五个问题:
1.谁说的?
如果统计数据中引用了权威人士,弄清楚到底资料的内容是权威的,还是仅仅扯上了权威人士的大名。
2.他是如何知道的?
这组数据是从何而来?结论又如何得出?
3.遗漏了什么?
找到数据中确实的部分。
4.是否有人偷换了概念?
在分析统计资料时,请留心从搜集原始资料,到形成结论的整个过程,是否存在着概念的偷换。
5.这个资料有意义吗?
以上就是这本书的主要内容了,通过这本书,可以使我们看待数字更为客观,更为理性。
Anyway,关于这方面的内容,我还是更推荐《统计学的世界》。有机会再跟大家聊聊吧~