20世纪20年代末,夏日午后,一群剑桥大学教员和他们的妻子围坐在一起。
他们谈天说地,品下午茶。一位女士,突发灵感,认为将茶倒进牛奶与将牛奶倒进茶中所产生的味道不一样。
在座的每一位科学家都轰然大笑,两种液体的混合物在化学成分上没有任何改变。味道能有什么区别呢?
此时,一位又矮又瘦的男子,表情变得严肃起来。
在这位男子的建议下,在座的科学家纷纷参与到实验设计中。
01
回到夏日的午后,这名其貌不扬的男子叫罗纳德.艾尔默.费希尔,做这个实验还不到40岁,后来一举成名。
1935年,他写了《实验设计》这本书,在书中第二章详尽地讨论了女士品茶。他对茶的测试数量,测试顺序,以及对这位女士该透露的顺序信息都有确切的描述。他还计算出女士在有辨别力和无辨别力出现正确结果的概率。
这让费希尔重新回归到实验与实验设计本身,他开始关注如何建立一个好的数学模型,如何收集数据,如何设置“对照要素”。
慢慢地,他的重心转移到统计学。
02
回到第一节,我们的主人公费希尔,命运比较坎坷。他自幼体弱多病,视力不好。但六岁的他,就对天文学、数学产生了浓厚的兴趣。八岁那年,他就听了著名天文学家罗伯特.鲍尔的讲座。
随后,他顺利考入哈罗公学,在校期间表现出惊人的数学天分。由于视力差,他晚上不能用电灯看书,也无法用笔、纸验证数学课上的作业。结果,他培养了极强的几何抽象思维能力。
1909年,学霸费希尔进入剑桥大学学习。3年后又拿到了受人尊重的“牧人”头衔。每年拿到这个头衔的人不超过两个。
03
毕业以后,费希尔潜心做数理分析研究,写了《收成变动研究一》、《收成变动研究二》。
在第二篇文中,“方差分析”四字首次与世人见面。
1924年,他又写了《收成变动研究三》,文章开头是这样的:
目前,我们对气候影响农作物的知识认识有限。这个主题对国家的某一大型产业极为重要,但还没有一个清晰的结论……最重要的因素是缺乏实验条件下获取的大量数据。
04
1934年,费希尔获得了英国皇家会员理学博士的殊荣。
大会上,费希尔提出了良好统计量的几个标准:
1.一致性:获得的数据越多,计算出的统计量越有可能接近参数真实数值。
2.无偏性:对不同数据多次使用某个统计量,这个统计量的平均值越接近参数真实数值。
3.有效性:统计量的值不会与参数真实数值完全相等,但在众多的统计量中,大多数统计量与真实数值的差异不会太大。
在费希尔的三个标准中,无偏标准吸引了公众的注意力。因为“偏差”就有某人无法接受的暗示,似乎没有人愿意获得总有“偏差”的统计量。
05
读了以上四节,你可能认为统计革命只发生在英国,这也是事实,但不确切。
英国人和丹麦人最早将统计模型应用于生物学和农业研究中。在费希尔的影响下,统计法很快传到了美国、印度、澳大利亚和加拿大。
各国的数学家们认真研究与数学模型相关的理论,得出了最重要的定理:中心极限定律。
中心极限定理很容易理解,就是不管数据来自哪里,数据的分布以呈正态分布。用大众的观点来说,就是“钟形曲线”。
06
最后又回到正题,假设开头提到的女士想区分哪杯是加了牛奶的茶,哪杯是加了茶的牛奶。
我们给她两杯茶,她能猜出的概率为1/2。如果再给她两杯茶,概率就变成1/4。又假设她在第24轮错了4次呢?在第24轮错了5次呢?
这时候就要用到费希尔提到的“p”值。p值对显著性结果研究意义重大。
如果p值非常小(小于0.01),可以确定一个影响因素。
如果p值很大(大于0.2),可以宣布检验出一个影响因素。
如果p值介于两者之间,可以宣布下一轮实验,以更好的了解真正的影响因素。
后记
21世纪,科学领域的统计革命仍然保持着前进的姿态,统计思想几乎在所有学科都战胜了决定论。统计方法得到了广泛的应用,也给我们生活带来了实质性突破。
然而,在未来某个时刻,另一场革命蓄势待发,随时准备推翻统计学的专制,而这场革命的领导者就有可能出现在我们中间。