如今,我们生活在大数据时代,一个大规模生产、分享和应用数据的时代正在开启。维克托·迈尔-舍恩伯格说,世界的本质就是数据。
高性能计算机和强大互联网的组合,使现代人被数据包围,无论是学习、工作,还是日常生活,都习惯了用数据说话,可怕的是,别有用心的人也学会了用数据说话。时常,我们分不清真假,这时,学点统计学,保持警惕,不要会错了数据的意,形成错误的认知、做出错误的决策。
在不确定的世界,加里·史密斯的《简单统计学》就是你的防骗指南。在纷繁斑斓的生活中,希望能给你一双看穿复杂世界的慧眼。
本书从统计学的基本原理出发,全面介绍了多种统计误区,数十个经典案例,幽默而犀利的分析让你知道,日常生活中,有哪些颠覆常识的结论,有哪些隐秘的陷进,有哪些欺骗性的套路。
我们都有自己的理论。我们习惯在看到一种模式以后编造出符合这种模式的理论,如果篮球选手连续多次投篮得分,这一定是他状态很好。其实,投篮选择可能还会受到对方的防守策略、投篮的间隔时间、分数和比赛剩余时间等影响。这个问题存在许多混杂因素。
生活在水箱里的章鱼“保罗”进行了14次世界杯预测,成功了12次,这足以从统计上证明保罗的超自然能力,于是,在一些人看来,保罗是最聪明的无脊椎动物,是具有超能力的章鱼。假设我连续抛20次硬币,也有可能连续多次出现同一面。
有时我们要相信常识,特别是对于那些反常识的说法。不要忽视来自巧合的连续现象数据,数据聚集现象无处不在,甚至存在于随机数据中。有时,随机性会生成看上去有意义但实际上毫无意义的模式。
罗纳德·科斯曾说,如果你对数据拷打足够长的时间,它一定会招供。不仅仅是要计算,还要运用常识仔细思考这种统计观点的合理性,而且,一项研究的结论有可能受到混杂因素的干扰。要证明它是否合理,就得接受新数据的检验。“无论文,不生存“,也成为研究人员作弊的巨大压力,导致他们发表的成果失真,实验数据虚假。
自选择偏差。对于做出不同选择的人进行比较是不靠谱的。大学毕业生的工资高于高中毕业生,每天用6h看电视的人比从不看电视的人平均早死5年。这些数据都是具有自选择偏差的观测性数据,选择上大学的人也许更聪明、更有抱负,选择整天看电视的人可能更加安静、抑郁,或本来健康状况就不是很理想。当我们比较做出不同选择的人,又不去考虑他们为什么做出这些选择时,就容易出现自选择偏差。
幸存者偏差。我们无法看到不存在的事物,对于结束轰炸任务飞机的防护考察不会包含被击落无法存活的飞机,对于入住某些酒店或访问某些国家的人群的调查不会包含仅有过一次经历而不再来的人。包括成功的企业、幸福的婚姻、长寿等都存在固有的幸存者偏差,我们自然而然的根据现象得出结论,我们还应考虑到我们没有看到的事情—没有返航的飞机、失败的公司、破碎的婚姻。我们没有看到的数据可能和我们看到的数据一样重要,甚至更重要。为避免幸存者偏差,我们应当从过去向未来展望。
均值回归。我们几乎每天都会在生活中遇到它,每个人的某一项能力在大量此类测试中会得出一个”平均能力值“,一个平均能力值为80分的人,有可能一次测试90分,有可能70分,高于80分属于超常发挥,低于80分属于表现不佳,表现好了也许是运气好,不要沾沾自喜,表现不好也不要气馁,许是发挥失常。
一对身高不高的父母也有可能养出高于他们的孩子,很有可能父母两人的基因都是中等身高,而恰好环境等因素导致实际身高较矮,而孩子的身高很有可能出现均值回归现象,甚至因为营养好,生活习惯好等因素使孩子身高表现优于基因表现。我们在寻找灵魂伴侣时,从几百、几千、几万人中万里挑一,少数人脱颖而出,但当我们深入交往时却非常失望。如果我们了解均值回归现象就不会从期望跌到失望,当一个人表现的能力值很高时,有可能是他的能力区间这在这个范围,但更有可能是超常发挥,一时情人眼里出西施,因为佼佼者毕竟是少数,多数人具有普通的能力值。没关系,我们需要继续寻找。
当能力得到不完美测量时,观测到的表现差异会夸大实际能力差异。表现最优秀的人与平均水平的距离很可能不像看上去那样遥远,表现最糟糕的人也是如此。表现出色的人得到了好运的帮助,均值回归也不意味着能力向均值收敛,如果足够努力,我们也可以将平均能力值往上提升,表现不佳的人亦如此。
在生活中懂点统计学,会发现生活更加有趣。