R数据分析:临床研究样本量计算、结果解读与实操 - 简书 (jianshu.com)](https://www.jianshu.com/p/5405c041dd7d)
临床研究中通常涉及到样本量的估算。方法较多。 经验性的做法是至少是10倍于变量的个数(events per variable,EPV)。
R语言怎么实现?
Inferential statistics has two parts: estimation of population parameter and testing of hypothesis. According to the type of medical research, any one of them can be adopted. The estimation method is used in prevalence/descriptive studies and the testing of hypothesis is used for cohort/case control/clinical trials.
首先,我们需要回顾一下,什么是原假设?什么是备择假设?
1.原假设又叫零假设,即指研究人员假定为真的某种假设,通常表达为总体参数等于某个固定值。
2.备择假设(alternative hypothesis)则是对零假设的否定或补充,通常表达为总体参数不等于或大于或小于某个固定值。
其次,样本量的估计条件?
重点关注两点:(1)设定检验的第Ⅰ类错误概率 α,即检验水准或显著性水平。是表示在任何水准上(α=0.05或α=0.01)发现差别,α 越小,所需要的样本量越大。在同一α水准下,单侧检验所需样本含量小于双侧检验所需的样本含量。(2)设定检验的第Ⅱ类错误概率β,或检验效能(把握度)1-β。1-β的含意是指若两组间有差别,则在 100 次试验中平均能发现出差别的概率,若要求检验效能越高,则所需的例数就越多。一般要求把握度不能低于0.75。临床研究中样本量的估计方法 - 知乎 (zhihu.com)
理解α 和β,可阅读文章:假设检验基础:α错误,β错误,样本容量,效应量的关系简介。 - 知乎 (zhihu.com)
样本量的估算,也称之为功效分析。
四个需要关注的参数:样本量,显著性水平(即α 值,I类错误的概率),功效(power,即检验效能,1-II类错误的概率,即1-β),效应值(effect size,d)
R包:pwr
需要根据不同的检验方法,需要输入上述四个参数中的一个,得到另外一个。所以,对于样本量的计算,效应值是重点。α 值一般为0.05(5%),1-β一般为0.90(90%)。
关于effect size的取值
1.可以参考Cohen's d for t-tests。Small: d = 0.2,Medium: d = 0.5, Large: d = 0.8+。
2.effsize package:
install.packages("effsize")
library(effsize)
# Example dataset
group1 <- c(10, 12, 9, 11, 13)
group2 <- c(8, 7, 6, 9, 8)
# Calculate Cohen's d
cohen.d(group1, group2)