------------导语----------
《国产凌凌漆》这部电影相信不少人都看过。
里面有个发明家叫“达文西”,他发明了一种武器,名字叫“要你命3000”。
所谓的“要你命3000”,
实际上就是把西瓜刀、毒药、火药、硫酸、车链、手枪、手榴弹等十种杀人武器用麻绳穿成一串。
传说是威力惊人胜过任何武器十倍的杀人利器。
看过这部电影的同学,相信多数心里都会闪现出两个字——扯淡!
然而,最近我遇到了件事情,又想起了这部电影。
有了这种感觉:
很多看上去很扯淡的事物,其实里面也能提取出来不扯淡的成分。
其实呢,这跟从废旧电路板中提取黄金有着异曲同工之妙。
我们先看看我遇到的是一件什么事吧。
欲将心意煮,
化粥。
带到月落,
粥凉有谁品?
又日出,
喂了微生物。
今天上午,一个很久没联系的客户,微信发来一张图。
如下:
然后他说:“R语言的t-test怎么这么坑?是不是有问题?肉眼都能看出a组数据(31,31,369)和b组数据(1,2,3)差距很大。最后得到的p-value却是0.3305,岂有此理。”
我看了一下,这段代码说的是应用R语言的t检验比较两组数据的均值差异显著性。
心里想着,按说不可能是R语言的问题啊。
然后很不自信地用R自己算了下,也是这个结果。
又盯着图思考了片刻,发现了问题的所在。
我尝试着把a组数据删除了一个数字9,变成接近正态分布的状态,即(31,31,36),又试了一遍:
于是我给他解释了原因:“问题出在a组数据上(31,31,369),倘若用这三个抽样数据去推断总体分布类型,总体几乎不可能是正态分布。而t检验属于参数检验,仅适用于来自正态或近似正态总体的数据,用非正态总体来源的数据做t检验,这不合适的。“
结果跟肉眼的感觉基本一致,p-value=0.00259。
他的是真实数据,是不能像我这么改成看上去像是正态总体的数据,只能另觅他途。
我回复他:“可以用非参数检验试试?比如秩和检验,可用于非正态分布总体!”
“好,我试试!”
本以为,这下OK了,谁知,没过5分钟,这哥们又发来一张图:
非参数检验的检验功效较低,用Wilcoxon test也不行,肉眼明显看出b组数据比a组数据大出许多,却依然是。
于是,我找了统计学高手四月妹妹,看看她有什么办法。
半小时过后,她给出的答案是“样本量太小”。
事实上,基于成本考虑,往往很多做宏基因组学研究的同仁会选择每个处理三个生物学重复去研究不同的生物学现象。如果遇到这种情况该怎么办。
告诉你,反面教材也是教材。