我感觉到后面应该会讲的比较省略了,公式模板什么的套的比较多,因为主要是用来做考试复习和速查的。大家如果有什么疑问,可以在下面提出来。在这一部分,我也会注重把解题的步骤写出来(好像写出来是有分的)。其实我们假设检验的步骤就是,建立H0和H1,然后确定分布,然后确定我们的样本值以及更极端值所占有的比率,如果比例太小,说明这个样本值不常见,就可以拒绝H0,接受H1。
样本均值比较
样本均值的比较我们一般会涉及到 Z检验 和 t检验。Z检验针对的是总体方差已知的情况,t检验针对的总体方差未知的情况。一般来说,t检验更为的常见。
使用t检验,前体条件必须是样本均值的抽样分布符合正态分布。如果总体是正态分布,那么小样本的样本均值抽样分布也可以符合正态分布。如果总体不是正态分布,那么只有样本量达到一定大小,才可以符合正态分布。但一般来说,我们的考试生物学数据是符合正态分布的,而且课上也不提检验正态性,所以我这里不说检验正态分布了。后面ANOVA就提到了检验正态性。。。。。
当然,某些生物学也是不符合正态性的,就要考虑用非参数检验了。
Z检验
Z检验就是根据样本值,得到样本值的Z-score,然后计算概率。
单样本均值比较,即与某个数字进行比较的话,就是
两样本的均值比较的话,就是
举个例子:
假设我们已知总体身高符合正态分布,且标准差已知为5,那么我们的样本数据为……(这里放上一堆数字,总共为20)。那么我们想要检验总体均值是否8。
步骤为:
我们建立原假设和备则假设,并设置显著性
然后计算p-value
# 模拟数字
> data <- rnorm(20,mean = 8,sd = 5)
> data
[1] 10.688820 7.462011 6.457040 6.146526 20.790506 9.610317 3.614535 5.224481
[9] 16.044720 8.231625 5.929559 13.817802 8.168671 3.331038 7.902722 7.818987
[17] -4.585604 5.304461 3.261386 11.483466
# 计算样本均值和标准差
> mean(data)
[1] 7.835154
> sd(data)
[1] 5.286252
# 计算z-score
> (mean(data)-8)*sqrt(20)/(sd(data))
[1] -0.1394591
# 计算p-value
# 因为z-score < 0,所以计算p-value是
> 2*pnorm(-0.1394591)
[1] 0.8890874
由于p-value > 0.05,所以接受H0。即认为总体均值是等于8的。
首先要注意单尾和双尾的问题,如果H1是不等于,就是双尾。H1是大于或者小于,就是单尾。单尾的话,p-value不用乘以2了。
z-score这里手算的话,要注意z-score的正负,如果是负的话是2*pnorm(z-score)。如果是正的话,就是2*(1-pnorm(z-score))
t检验
单样本的t检验
配对样本的t检验
配对样本的t检验,本质上就是配对样本对应值之差的单样本检验。所以也是一样的公式
独立两样本的t检验——方差相等
t分布的自由度为
独立两样本的t检验——方差不相等
t分布的自由度为:
t分布的步骤还是跟z差不多的,只要注意写上H0和H1就行了。不过不同的是,需要记得去检验方差齐性。方差齐性的R函数是var.test
。方差齐性检验完了,如果是齐性的,就在t.test
里面设置 var.equal=T
。
举个例子(这里我不写H0,H1了)
# 生成数据
> t_data1 <- rnorm(20)
> t_data2 <- rnorm(20)
# 先确定是不是配对数据,我们先假设是配对的
> t.test(t_data1,t_data2,paired = T)
Paired t-test
data: t_data1 and t_data2
t = 0.82025, df = 19, p-value = 0.4222
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3972871 0.9093616
sample estimates:
mean of the differences
0.2560372
# 也可以假设是不配对的
# 然后确定你的H1假设是单尾还是双尾,然后调整
# 我们假设是双尾,即两者均值不等——双尾其实是默认值
t.test(t_data1,t_data2,alternative = "two.sided")
# 然后要做方差齐性检验(这里也要写H0和H1,即假设方差是否相等)
> var.test(t_data1,t_data2)
F test to compare two variances
data: t_data1 and t_data2
F = 1.6712, num df = 19, denom df = 19, p-value = 0.2719
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6614761 4.2221719
sample estimates:
ratio of variances
1.671187
# 做完方差齐性之后,根据结果,设置var.equal参数
> t.test(t_data1,t_data2,var.equal = T)
Two Sample t-test
data: t_data1 and t_data2
t = 0.77421, df = 38, p-value = 0.4436
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.4134474 0.9255219
sample estimates:
mean of x mean of y
0.21364009 -0.04239716
样本方差比较
单样本方差比较
对于单样本的方差比较,我们用卡方分布。卡方统计量为
例子就用PPT上这张图
PPT这里的零假设是方差等于35
只不过这里p值的计算可以利用R来做,不用查表
# 还是双端
> 2*pchisq(2.103,9)
[1] 0.02053599
关于不同情况下的双端计算,可以看这张PPT。
两样本方差比较
对于两样本的方差比较,我们用F检验。
F分布的定义为设随机变量 ,,X1与X2独立。则称 的分布是自由度为m与n的F分布,记为 。这个定义恰好适用与我们的两样本比较。
检验过程用PPT表示:
当然,在R里面,你直接用var.test就可以了。