1. 超几何分布公式
超几何分布检验在生信中使用是比较多的,典型的就是 GO 和 KEGG Pathway 的富集分析。
超几何分布常用来表示在 N 个物品中有指定商品 M 个,不放回抽取 n 个,抽中指定商品的个数,即X~H(N, n, M),则抽中 k 件 M 商品的概率为:
也可以写作: f(k; n, m, N) = C(m, k) * C(N-m, n-k) / C(N, n)
若 n = 1, 则超几何分布还原为 伯努利分布。
若 N 接近 ∞, 则超几何分布可视为二项式分布
2. 排列的定义
排列的定义:从 n 个不同元素中,任取 m ( m ≤ n, m 与 n 均为自然数,下同) 个元素按照一定的顺序排成一列,叫做从 n 个不同元素中取出 m 个元素的一个排列;从 n 个不同元素中取出 m(m≤n) 个元素的所有排列的个数,叫做从 n 个不同元素中取出 m 个元素的排列数,用符号 A(n,m) 表示。
计算公式:
3. 组合的定义
组合的定义:从 n 个不同元素中,任取 m( m ≤ n ) 个元素并成一组,叫做从 n 个不同元素中取出 m 个元素的一个组合;从 n 个不同元素中取出 m ( m ≤ n ) 个元素的所有组合的个数,叫做从 n 个不同元素中取出 m 个元素的组合数。用符号 C(n, m) 表示。
计算公式:
C(n, m) = C(n, n-m), (n ≥ m);
4. 超几何分布概率计算
计算超几何分布 P-value 计算 Perl 代码的实现:
#!/usr/bin/perl -w
use strict;
# my $out = &Fac(5);
# my $out = &Factorial(5);
# my $out = &Combination(5, 2);
my $out = &Pvalue(5, 30, 70, 100);
print "$out\n";
sub Factorial {
## n! = n * (n-1) * (n-2) * ... * 2 * 1
my $n = shift @_;
if ($n == 1){
return 1;
}else{
return ($n * &Factorial($n-1));
}
}
## or
sub Factorial {
## n! = n * (n-1) * (n-2) * ... * 2 * 1
## n! = &Factorial(n);
my $n = shift @_;
my $acc;
if ($n == 1){
$acc = 1;
}else{
$acc *= $_ for 2..$n;
}
return $acc;
}
sub Combination {
## C(n, m) = n! / (m! * (n - m)!)
my ($n, $m) = @_;
my $out = 1;
if ($n == $m){
return 1;
}elsif($n > $m){
return &Factorial($n) / (&Factorial($m) * &Factorial($n-$m));
}else{
print STDERR "Erro! Combination($n, $m) \n";
exit 1;
};
}
sub Pvalue {
## Total: N
## Spacial: M
## SelectNUm: n
## P(x=k) = C(M, k) * C(N-M, n-k) / C(N, n)
## f(k; n, M, N) = C(M, k) * C(N-M, n-k) / C(N, n)
## C(n, m) = n! / m!*(n-m)!
my ($k, $n, $M, $N ) = @_;
my $pvalue = &Combination($M, $k) * &Combination($N-$M, $n-$k) / &Combination($N, $n);
return $pvalue;
}
__END__
一些其他分布
伯努利分布:
p(x)=p x ∗ (1−p) 1−x
二项式分布
几何分布
泊松分布
参考连接:
排列组合:https://baike.baidu.com/item/%E6%8E%92%E5%88%97%E7%BB%84%E5%90%88/706498)
不放回抽样:https://baike.baidu.com/item/%E4%B8%8D%E6%94%BE%E5%9B%9E%E6%8A%BD%E6%A0%B7
不同分布区别:http://grid.hust.edu.cn/yangsirui/res/distribution.htm