在翻译STAMP差异分析软件时,统计方法部分的多组差异检验是一个很好的学习机会。于是在这里多谈几句。我们做了实验获得数据,最大的愿望也许就是能看到不同的处理能有不同的结果,每一个朴素的研究者都希望看到组间差异的程度。于是就是组间差异检验这一统计方法。
这里所说的多组见差异检验是指(>=)3组.
table1分为三部分也就是Statistical properties中选项关系:
- 1.Statistical hypothesis tests
-
- Games-Howell
- Scheffè
- Tukey-Kramer
- Welch’s (uncorrected)
-
- Benjamini-Hochberg FDR
- Bonferroni
- Šidák
- Storey’s FDR
原文中说:Table 1. Multiple group statistical techniques available in STAMP. Our recommendations are indicated in bold.
我们来看看多组间的差异是怎么找出来的。
举一个具体的实例:
我们测量了M个基因在A,B,C,D,E一共5个时间点的表达量,求其中的差异基因,具体做法:
(1)首先做ANOVA(Statistical hypothesis tests),确定这M个基因中有哪些基因至少出现过差异
(2)5个时间点之间两两比较(Post-hoc tests),一共比较5*4/2=10次,则多重假设检验的n=10
(3)每个基因做完10次假设检验后都有10个p-value,做多重假设检验校正(n=10)( Multiple test correction methods),得到q-value
(4)根据q-value判断在哪两组之间存在差异
多重假设检验校正总结起来就三句话:
(1)当同一个数据集有n次(n>=2)假设检验时,要做多重假设检验校正
(2)对于Bonferroni校正,是将p-value的cutoff除以n做校正,这样差异基因筛选的p-value cutoff就更小了,从而使得结果更加严谨
(3)FDR校正是对每个p-value做校正,转换为q-value。q=p*n/rank,其中rank是指p-value从小到大排序后的次序。
ANOVA only detect the different among many groups. If the P<0.05, you may need to do further analysis to determine the different between two groups. This analysis is called post-hoc (事后)test.)
到这里大概知道了多组间的差异是如何一步步检验出来的,就是大概发生了三步。接下来我们更关心的是在什么样的情况下用那种方法,而不是一个笼统的答案:通常情况下我用这个这个。这个就要大家去摸索了。
STAMP考虑了高通量物种信息获得的一般情况,对推荐用的算法做了加粗推荐,也望大家慎重。