超几何分布的应用
超几何分布(hypergeometric)是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。
超几何分布和Fisher's Exact Test是完全一模一样的原理,只是两种不同的称谓。
例如在有N个样本,其中m个是不及格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不及格的机率:
上式可如此理解:n^N 表示所有在N个样本中抽出n个,而抽出的结果不一样的数目。
k^m 表示在m个样本中,抽出k个的方法数目。剩下来的样本都是及格的,而及格的样本有N-m个,剩下的抽法便有(n-K^N-m)种。
若n=1,超几何分布还原为伯努利分布。
若N接近∞,超几何分布可视为二项分布。注意二项分布是有归还 (with replacement) 的抽取。
然后计算得到的p-value通过Bonferroni校正之后,以0.05为阈值(小于0.05),满足此条件的GO term定义为显著富集。
(1)超几何分布的模型是不放回抽样
(2)超几何分布中的参数是M,N,n上述超几何分布记作X~H(n,M,N)。
具体例子可参考以下网址:
https://www.jianshu.com/p/3d01a66e235b