假设检验:
一般步骤:
1.设定假设后需要验证:假设0一般都是“处理组和对照组无区别”
2.构建检验统计量:根据样本数据计算统计量和检验统计量
3.设定置信区间:根据检验统计量的分布,计算假设发生的概率P
# 分布的意义在于划定误差分布,即划定真实世界的随机误差范围
# 小概率事件的发生概率几乎为零,但是为了满足我们的现实需求,我们一般可以设定P>0.05即认定假设为真,即发生假设情况的概率为5%以上时,即认定假设为真。P<0.05时,即认定假设为假,即处理组和对照组有区别。
# 但在真实世界里,真实事件的概率可能会达到99.9%,而不只是95%。所以我们可能会将原本为真的情况,误判为假,即发生一类错误。
# 反过来说,当假设为假时,我们会认定处理组和对照组有区别,但其实有一定概率是“原本没有区别,但是被我们误判为假”的情况。
为了降低发生一类错误的概率,我们可以降低置信区间,相应的P值范围也会改变。多重检验校正便是通过设定一些规则改变P值范围来降低犯错的概率。
多重检验校正:
随着假设检验的次数增高,犯错误的概率就不断增大,这时候就需要进一步调整P,从而保证最终结果的可靠性。
比较基础的有Bonferroni校正和Benjamini and Hochberg校正
基本定义:
FWER(Family-Wise Error Rate):初现至少一次一类错误(原本为真,判定为假)的概率
FDR(False Discovery Rate):所有判为假的结论中(阳性结果),即发生一类错误的概率
Bonferroni校正:
基本原理是控制FWER
adj.P= α/m
# 其中α 为原定显著性,m 为检验次数;
# 举例:原α=0.05,检验m= 10000次,则adj.P= 0.000005。假设全部结果都是假(阳性结果),并且全部都是一类错误,则发生一类错误的次数 n= adj.P*m= 0.05< 1
Benjamini and Hochberg校正:
基本原理是对FDR设限,如1%,一百个阳性结果,有一个是一类错误。但是也可以根据α来设定FDR,即BH校正。
将所有检验P值进行由低到高排序,找到一个最大正整数k,使得
P(k)<= α* (k/m)
# m为总检验次数
# 1~k均为阳性结果
#该策略假设的是假阳性与真阳性虽然都是阳性,但假阳性与真阳性本质截然不同,故从假阳性到真阳性是斜率陡然上升的。
除了BH外,还可以直接设定FDR。
总结:
adj.P其实就是q value;
各种校正其实只是设定q value的标准不同,核心思想都是一样的;
以上两个校正策略,用得较多的是第二个。因为第一个太严格了,很容易将真阳性结果筛掉。