刘丽是个很谨慎的人,这天来了位上门推销的大姐,大讲产品功效,刘丽正要下逐客令,大姐忽然讲到刘丽家附近的某某用了产品。
虽然刘丽并不认识某某,但听大姐把地址姓名都说得清清楚楚,就听了下去,大姐接着说了一串数字,有多少人用了产品,有效率达到多少等等。
刘丽心动了,掏出腰包买下了这个产品。
俗话说“事实胜于雄辩”,而带上数字的事实则更容易让人相信,这大概就是数字的魔力。
在如今这个大数据时代,数字变得更神奇。
我们浏览某个购物网站或者网页后,再次点开时,就看到了“猜你喜欢”之类的提示,你看看这些推荐的内容,感觉简直比你自己还要懂你,这就是运用大数据的结果。
我们在手机上查路况,查找旅游景点和附近餐馆,甚至看医生等等,都要用到大数据,大数据已经渗入我们生活的各个方面。
最神奇的是运用大数据进行预测。微软纽约研究院的经济学家大卫•罗斯柴尔德利用大数据“猜”到了2013年第85届奥斯卡的19个奖项,“猜”中了2014年
奖项24个中的21个。
2012年他还正确预测了美国51个行政区中50个总统大选结果。对此,许多人感叹:大数据时代,惊喜已死!
但这还是给了我们更多欣喜,尤其对于需要洞察力和精准决策的企业经营、投资、政府管理等,这实在是为我们描绘了一幅非常美好的蓝图。
但是,事实并非想象中的这么完美。
刘丽买下产品使用后才发现根本没什么用,价格更是高得离谱,感觉自己是受骗上当了,后悔不已。
这本名为《简单统计学》的书里则向我们讲述了许多根据数据得出的怪异结论:堕胎可以减少犯罪,凌乱的房间会加剧人们的种族主义倾向,吃肉会使人变得更加自私……
或者似是而非的结论:生活在输电线附近的儿童具有更大的患癌风险,每天饮用两杯咖啡,会增大患上胰腺癌的风险……
那么,这些错误是怎么产生的,我们又该如何识别和远离这些一本正经的错误?
别急,《简单统计学——如何轻松识破一本正经的胡说八道》这本书讲的就是这个。
作者加里.史密斯是耶鲁大学博士,曾在耶鲁大学任教7年,他的课程因结合日常生活实例,深入浅出分析数据而广受欢迎,火爆异常。
本书就是他在耶鲁大学的统计学公开课。
一本正经的胡说八道是怎么产生的?
1
导致错误的产生有外在的因素。
严格的实验是只改变一个因素,其他保持不变,但现实生活往往不可能做到这样,而是会有许多混杂因素。
如准确预测了2010年8场世界杯比赛的章鱼保罗,并非它智商有多高,实际只是它更喜欢那三个获胜球队国家的国旗而已。
而瑞典女性死亡率高于哥斯达黎加,因为瑞典的老年女性较多,胰腺癌病人饮用咖啡比其他人多是因为其他许多病人存在溃疡戒除了咖啡。
作者认为,超级畅销书《从优秀到卓越》对成功公司的研究限于对过去的回溯性研究,没有考虑到幸存者偏差问题,因而书中列出的共同特点并不能很好地预测这些公司将来的表现。
2
但更根本的原因却是模式的诱惑,即人们内心深处对模式的渴望与寻求。
虽然在远古时代这种特性和技能可能帮助了人类生存和繁衍,但它并不能很好地适应现代社会,因为我们现成面对的数据庞大而复杂,并不容易解释。
然而这种意愿仍顽强地存在于人内心。人们急于在数据中寻找模式,也容易被这种模式所吸引,然后只关注支持模式的数据,忽视不支持的数据。
前些天网上有人议论1993年出生的女生,都嫁给了娱乐圈或者商圈的大咖,比如奶茶妹妹,昆凌,吴千语,最近的孙怡。
我觉得这就是一个寻找模式的典型,在数据中寻找共同点,然后进行选择性报告。
大咖这么多,这几个例子能说明什么?其他不是93年出生的大咖妻子呢?有人居然对此进行所谓的命理分析,更是可笑!
在模式的诱惑下,研究人员开始热切地追逐统计显著性。如今在大数据和计算机的帮助下,寻找这种统计显著性变得很容易。
寻找方法主要有两种:
一种是选择性报告。他们对多种理论进行检验,然后只公布其中有统计显著性的结果。
要知道,即使对毫无价值的理论进行检验,也会有二十分之一的检验表现出统计显著性。
诺贝尔奖获得者费曼曾请学生计算他走出教室看到的第一辆车子拥有某个特定牌照的概率,聪明的学生很快算出概率为1.76亿分之一,但费曼说正确的概率是1,因为他刚才出来就看到了这个牌照。
这让我想起多年前看过的一篇文章,说的也正是这点:小概率事件一旦发生,它就不再是小概率事件。
另一种方法就是数据搜刮,他们进行数百次的检验,总会发现某种有统计显著性的模式。
作者指出,随机数据也会出现令人震惊的数据甚至数据聚焦现象。
“1000个抛硬币的人之中,一定会有一些人连续抛出10次正面”。
而且运用这种推论,即使只有一次正面,你也可以得出一种理论:你抛出的硬币一定正面朝上,因为你看到了数据与理论相符,显然这谬误之极!
作者认为,因为死于癌症的孩子生活在输电线附近,就认为输电线的磁场一定是导致癌症的元凶,其推导方式和上面硬币理论如出一辙。
就像德克萨斯冒牌神枪手随机开枪,再在打中最多区域绘制靶心,用某种数据编造理论,很容易就能发现这种理论与数据相符。
3
在模式的诱惑下,研究人员包括著名的科学家也会有意无意地犯下错误。
有些错误是无意的。
如《魔鬼经济学》作者芝加哥经济学家莱维特与人合写的论文中得出"堕胎减少犯罪"的可笑结论,经检验,他在其中犯了多个错误,他本人也承认了。
因为基数太小,一个被错误统计的谋杀案,导致以艺术家和宁静著称的马萨诸塞州韦尔弗里特小镇,居然成了谋杀率是波士顿两倍多的谋杀之都。
有些错误则是故意的,为了得到自己想要的结论。
如英国医生安德鲁.韦克菲尔德制造的疫苗恐慌,称儿童接种麻疹、腮腺炎和风疹疫苗后患上自闭症,后发现他的研究背后有利益诉求,同时样本很小,且数据造假。
房间凌乱加剧种族倾向和吃肉让人更自私的结论都出自芬兰社会心理学家迪德里克.斯塔佩尔,他后来承认对许多数据进行了篡改,有的则完全是编造的。
4
这本《简单统计学》在对大量“数据谎言”进行分析的过程中,对一些基本的统计学原理进行了深入浅出的阐述,有两个问题特别有趣。
一是假阳性问题。
作者告诉我们,即使针对疾病的检测准确率很高,比如高达80%甚至90%以上,得到阳性检测结果的许多人仍可能不是患者。
作者举了个肿瘤检测的例子,如下图所示,检测为阳性的患者患癌的概率只有7.5%。
这让我想起以前有位同事,在县医院检测为肿瘤,后去上海却诊断为只是睡眠不好而已。当时都只是感叹县医院医疗医术水平太低,看来原因不只在此啊。
书中说经过调查表明,很多医生对此也有错误认识。
除了没注意有时大数中的小比例大于小数中的大比例外,很多医生误以为病人得到阳性检查情况下患癌概率与癌症患者得到阳性检查的概率大致相等,这是混淆了两种条件性陈述。
一个是均值回归现象。
某人上次考试分数很高或者说表现很出色,这次就差了多,有可能并非是他没努力,而是一种正常的”均值回归“现象.
分数最高或者表现最出色的人与分数最低或表现最差的人之间的实际差距,也许并没有我们看到和想像得那么大。
当然,书中也指出,许多重要的科学理论确实也是人们为了解释他们所发现的模式而提出来的,如孟德尔遗传定律的发现,但数据挖掘还是导致了数千种胡诌理论
那么,我们该如何识破其中的真假?
如何识破一本正经的胡说八道
本书共有19章,各章都有许多生动的案例和深入浅出的分析,并在每章末尾附有针对各章内容的如何轻松识破“骗局”的防以骗指南。
在此基础上,作者提出了两种最根本的方法,用来帮助我们识别正确理论与胡诌之间区别的方法:
一是用常识和直觉检验。
某种听起来可笑的理论,在看到压倒性证据之前,不要轻信,即使看到了也要保持怀疑态度,不同寻常的说法必须要有不同寻常的证据才行。
比如对于所谓的特异功能,书中对其中骗局进行了深入的地揭露。
二是要用没被数据污染的新数据来对新理论进行检验。
一句话就是
”没有理论的数据仅仅是数据而已“,
也就是说在数据中找出的模式应该得到一个合理的理论的解释,并需要得到新数据的检验。
同时,《简单统计学》这本书还指出了
”没有数据的理论仅仅是理论而已“,
也就是说一个理论必须经过可靠数据的检验,在这之前也只能是一种猜测。
书中指出马尔萨斯、福雷斯特等的世界末日式的人口预测被证明是错误的,他们的推论中有一些合理,但缺乏足够的数据检验。
史密斯在《简单统计学》这本书中颠覆了我们对模式的迷恋,对数字的迷信,但他同时强调了常识。
他指出现在有些专家完全无视常识,过分追求模式,追求统计显著性,从所谓的数据中得出许多违背常识的可笑的模式“理论”。
他说
“在这个年代,常识是一种稀缺品,许多诚实的研究人员用严肃的语气提出了一些愚蠢的理论。”。
常识正是识破这些一本正经胡说八道的有力武器。从这点来说,对于那些颠覆常识的所谓新奇思想观点,这本《简单统计学——如何轻松识破一本正经的胡说八道》是一种反颠覆。