注:简书不支持数学公式。 带公式版本的,请浏览博客文章:T检验:两样本数据的差异性
我最近在研究TCGA的RNAseq数据表达差异性的分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。
两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著差异,从而推断两个总体是否存在差异。
通过对T检验的P值来判断是否存在差异,从而判断数据是否来自同一个样本。
下面以sin(x) 为例来说明:
代码:
x=seq(-pi,pi,0.0001)
y1=sin(x)
y2=-y1
png("test.png")
plot(y1~x)
lines(y2~x)
dev.off()
mean(y1)
[1] 9.974243e-11
mean(y2)
[1] -9.974243e-11
t.test(y1,y2)
#结果
Welch Two Sample t-test
data: y1 and y2
t = 5.0003e-08, df = 125660, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.007819244 0.007819244
sample estimates:
mean of x mean of y
9.974243e-11 -9.974243e-11
图如下所示:
可以明显发现,两个数据来自不同分布,差异很明显,但是T检验的P值却为1,表明不存在差异,与图像的结果明显不符合。这就是T检验的不足。
关于T检验的改进方法介绍,在下一次分享中将会介绍。