统计学看起来很枯燥,其实却非常有趣。它是数学大家庭的一员,却不像数学那般高冷,它的亲民体现在生活中的方方面面,天气预报,彩票预测......
网络时代的到来带来了信息爆炸,各种各样的数据呈现在我们面前,等待我们去梳理、分类,挖掘获取有用的信息。大数据已经渗透我们的生活,并在不知不觉改变着我们的生活。
上网时不断推送的各种购物信息,推荐的电影信息,甚至餐厅推荐,不得不说,网络有时候比你的朋友对你更了解,它知道你喜欢什么类型的电影,最近读了什么书,买了什么东西,准备买什么,你生活的方方面面它都一清二楚,在网络面前,有时候我们是透明的。
该书结合生活中的各种事例阐述统计学的基本理论,例如从网上电影推荐系统说起,讲述了相关性和相关系数的概念,即为对电影喜好相同的某一类人群,推荐其人群喜欢而作者还未看过的电影,则推荐的准确率要高很多。而从买彩票和买股票的长期均值和期望来看,买股票的利润要远远高于买彩票,而买彩票长远看总是亏本的。
有时候,直觉会欺骗人,比如蒙提霍尔悖论(三门理论),利用统计学,则可以解释清楚。
当然,也不要盲从统计学,因为统计学使用的不恰当,往往会给人错误的指导。或者说利用数据统计说谎很容易,利用数据统计说出实情却很难。因为数据统计涉及的内容太多,样本的准确性,统计方法的正确性,任何一个小小的偏差,就会导致结论的错误。
比如婴儿猝死症案件,不能用群体性的概率去估计单个个体的概率,在群体中1%的概率,可能因为基因或其他因素,在某个个体身上概率就是100%。
而08年的金融风暴则是混淆了统计的准确性和精确性,数据的精确并不代表数据的准确,而一堆不准确的精确数据导致的后果可能是灾难性的。
实际生活中的数据统计,往往面临着准确取样的困难。所以不能从数据的表面去妄测事情的因果。比如统计发现爱喝茶的人比爱喝酒的人身体更健康,就推论喝茶有利身体健康。而实际上,爱喝茶的人可能在生活习惯等方面与爱喝酒的人是有本质的不同的,他们是完全不同的两类人,这样得出上面的结论就是不准确的。
另外一个事例,美国某个城市的肺结核病人比较多,就由此推测该城市空气污染严重,不适合肺部健康。而实际上是该市蓝天绿草,空气质量非常好,非常有利于肺部健康,正是因为如此,很多肺结核病人来此地疗养,就显得此地的肺结核病人非常多。所以很多时候表面的因果关系其实是相反的。
书的末尾,再次强调了,使用数据一定要非常审慎,因为得出一个正确结论的难度要比错误结论的难度大很多。