彻底理解Benjamini-Hochberg方法原理

什么是FDR?

错误发现率FDR(False discovery rate)是在所有结果显著的检验中,假阳(零假设H0为真时,拒绝H0的情况)所占的比率。如下表所示,N次假设检验中,FDR定义为V/R=V/(V+S)。


而经典的Benjamini-Hochberg (BH) 方法就是用于控制错误发现率FDR的一种方法,让FDR≤α。

Benjamini-Hochberg方法介绍

有N次假设检验,对每一次假设检验都计算其P值,然后将计算出的P值按照从小到大的方式排序,接着从最小的P值开始,按照P(k)≤α*k/N进行比较,然后可以找到最大的第K个满足上述不等式的P值,最终可以认为这K个P值是显著的,其余的P值不显著。

我们来看一个具体例子,假设需要检验的总体均值为6%,重复进行了30次抽样检验,最小的6个P值如下表所示,如果使用5%的显著性水平,仅考虑P值大小来评估的话,那么我们将会拒绝最小的5个P值所对应的检验(P值=0.0625>5%),但使用Benjamini-Hochberg方法修正后,只会拒绝一个P值(下表中第一个)。


Benjamini-Hochberg方法原理

我们将10000次假设检验分为2组:

1. 9000次检验的零假设H0:真;

2. 1000次检验的零假设H0:假。

然后,可以看到这两组检验的P值分布情况如下图所示:


H0为真时,P值均匀分布在0%-100%之间,为什么会是均匀分布呢?是因为在零假设H0条件下,P值有5%的可能性小于5%,有10%的可能性小于10%,有20%的可能性小于20%,以此类推,可以很直观理解P值的均匀分布。而上图之所以不是完全的均匀分布,是因为样本数量还不够大(当样本数量越大,P值也就越接近于均匀分布)。

H0为假时,P值就不再是均匀分布了,而是集中在0%附近,其他区间基本没有出现。这也比较好理解:H0是假,假设检验的功效越大,检验出H0为假的能力就越好,也就意味着P值越小,拒绝H0的证据越明显。

如果将所有P值合在一起统计的话,就如下图所示。0%附近的第一个直方块高度为1400次,而后面均匀分布的方块平均高度为453次(如下图红线所示),因此使用这个直方图,我们可以大致估计出零假设H0是假,应该被拒绝的数是:1400-453=947(和上图中的真实值1000非常接近)。


进一步思考,0%附近第一个直方块中包含的1400个P值,按照常规假设检验,都需要拒绝掉么?通过上述分析,一个合理的拒绝数量应该为947个。

实际上,按照Benjamini-Hochberg方法,从小到大的顺序对p值进行排序,按照P(k)≤α*k/N进行比较,拒绝最小的P值,其中有116个H0为真的情况,也就意味着错误发现率FDR=116/947=0.12。

如果要控制FDR≤α=0.1,则可重新使用Benjamini-Hochberg方法,这次我们从更加图形可视化的角度来理解这个过程。

如下图所示,横坐标是假设检验次数,纵坐标是P值。在坐标系中我们先以α/N为斜率画一条红线(P=α*k/N函数),然后将所有假设检验的P值分布在坐标系中,拒绝掉所有在红线下的P值(也就是≤α*k/N的P值)。


具体而言,α/N为斜率的红线和所有假设检验的P值相交的最大点对应频次为883,在883个最小P值中实际上有83个零假设H0为真的情况,也就意味着实际的FDR=83/883=0.094<0.1。

为什么Benjamini-Hochberg方法能保证FDR≤α呢?本质是什么?

我们将上面的具体问题提炼总结一下,如下图所示:横坐标是假设检验次数,纵坐标是P值(0%-100%之间),先画一条以α/N为斜率的红线,假设L是红线和所有假设检验的P值相交的最大点(L以下都是需要拒绝的P值)。而基于上文,我们知道零假设H0为真时的P值是均匀分布,也就是说P值落在任意[0%-100%]区间的期望值为:k%*H0为真的假设检验次数,而H0为真的假设检验次数N0一定是小于N的。


在L个被拒绝的P值中,其中H0为真的假设检验个数为:h* H0为真的假设检验次数=h*N0。


这就是为什么Benjamini-Hochberg方法能有效控制错误发现率FDR≤α的底层逻辑。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容