R语言与统计-1:t检验与秩和检验
R语言与统计-2:方差分析
t检验和方差分析主要针对连续型变量,卡方检验主要针对分类变量。
1. 拟合优度检验
拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。
简单来说,就是检验样本数据分布是否与已知总体的分布是一致的
#生成数据集
men <- c(11,120,60,45)
women <- c(20,102,39,30)
df <- as.data.frame(rbind(men,women))
colnames(df) <- c('AB','O','A','B')
df
# AB O A B
# men 11 120 60 45
# women 20 102 39 30
-
chisel.test
函数
检验男性组中,四种血型的分布是否一样
chisq.test(men)
# Chi-squared test for given
# probabilities
# data: men
# X-squared = 105.46, df = 3, p-value <
# 2.2e-16
##p值远远小于0.05,男性组中四种血型的分布不一样
如若已知人群中四种血型的占比为0.1 0.5 0.2 0.2,看该组男性的血型分布是否与人群的一致。参数p:传入已知总体的参数情况。
chisq.test(men,p=c(0.1,0.5,0.2,0.2))
# Chi-squared test for given
# probabilities
# data: men
# X-squared = 10.335, df = 3, p-value =
# 0.01592
##结果显示不一致
2. 卡方齐性检验和卡方独立性检验
两者写法一样,解释的方法不一样。
卡方齐性检验:比较不同的分类水平下,各个类型的比例是否一致。
chisq.test(df)
# Pearson's Chi-squared test
# data: df
# X-squared = 6.8607, df = 3, p-value =
# 0.07647
##男女不同血型的分布是一致的。即:血型的分布与性别无关。
卡方独立性检验:
chisq.test(df)
# Pearson's Chi-squared test
# data: df
# X-squared = 6.8607, df = 3, p-value =
# 0.07647
##意思是行变量(性别)和列变量(血型)之前没有关联
3. CMH检验 分层检验 针对不同的分层数据来进行
对于行变量为无序分类,列变量为有序分类的数据,由于不能忽略等级关系,也只能使用CMH检验,而不能使用皮尔森卡方检验。
# 生成一个数据集
Rabbits <- array(c(0,0,6,5,
3,0,3,6,
6,2,1,0,
5,6,1,0,
2,5,0,0),
dim=c(2,2,5),
dimnames = list(
Delay=c('None','1.5h'),
Response=c('Cured','Died'),
Penicillin.level=c('1/8','1/4','1/2','1','4')))
Rabbits
# , , Penicillin.level = 1/8
# Response
# Delay Cured Died
# None 0 6
# 1.5h 0 5
# , , Penicillin.level = 1/4
# Response
# Delay Cured Died
# None 3 3
# 1.5h 0 6
# , , Penicillin.level = 1/2
# Response
# Delay Cured Died
# None 6 1
# 1.5h 2 0
# , , Penicillin.level = 1
# Response
# Delay Cured Died
# None 5 1
# 1.5h 6 0
# , , Penicillin.level = 4
# Response
# Delay Cured Died
# None 2 0
# 1.5h 5 0
使用CMH检验查看盘尼西林的水平和是否推迟注射对兔子的结局是否有影响。
mantelhaen.test()函数
mantelhaen.test(Rabbits)
# Mantel-Haenszel chi-squared test with
# continuity correction
# data: Rabbits
# Mantel-Haenszel X-squared = 0.074445, df = 1,
# p-value = 0.785
# alternative hypothesis: true common odds ratio is not equal to 1
# 95 percent confidence interval:
# 0.3111294 13.8643579
# sample estimates:
# common odds ratio
# 2.076923
p值>0.05,无统计学意义。将盘尼西林分为5层水平后,立即注射和推迟1.5h注射的OR值是2.076923
4. 有序分类的卡方检验
mantelhaen.test()函数
Satisfaction <-
as.table(array(c(1,2,0,0,3,3,1,2,
11,17,8,4,2,3,5,2,
1,0,0,0,1,3,0,1,
2,5,7,9,1,1,3,6),
dim=c(4,4,2),
dimnames=list(Income=c('<5000','5000-15000','15000-25000','>25000'),
'Job Satisfaction'=c('V_D','L_S','M_S','V_S'),
Gender=c('Female','Male'))))
Satisfaction
# , , Gender = Female
# Job Satisfaction
# Income V_D L_S M_S V_S
# <5000 1 3 11 2
# 5000-15000 2 3 17 3
# 15000-25000 0 1 8 5
# >25000 0 2 4 2
#, , Gender = Male
# Job Satisfaction
# Income V_D L_S M_S V_S
# <5000 1 1 2 1
# 5000-15000 0 3 5 1
# 15000-25000 0 0 7 3
# >25000 0 1 9 6
income是一个有序分类变量。结果显示工资水平对工作满意度没有显著的统计学关系。
5. 配对四格表的卡方检验(常见的病例对照研究等)
paired <- as.table(matrix(c(157,24,69,18),nrow = 2,dimnames = list(case=c('A','B'),control=c('A','B'))))
paired
# control
# case A B
# A 157 69
# B 24 18
mcnemar.test()函数
mcnemar.test(paired)
# McNemar's Chi-squared test with continuity
# correction
# data: paired
# McNemar's chi-squared = 20.817, df = 1,
# p-value = 5.053e-06
###p<0.05, case和control之间存在相关性