1.常见的离散分布
2.二项分布
例如:袋中放了20个球,5白15黑,每次抽球后放回袋中,则抽10次球,抽到白球X次的概率,此时
X~B(10,p)
二项分布的性质
二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p+q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。
二项分布的概率计算
二项分布在生物信息中的应用
理解:抽样总reads数目为n,突变数为k
P value的理解
一句话:p value: 把H0错判为假的概率。p越小说明,错判概率越小,则有足够把握拒绝H0,接受H1。
详见如下:
P value(当H0为真时拒绝H0的概率),即:H0为真,却判错的概率。如果P较大,说明,我们此时判定H0为假,也就是拒绝H0(默认是接受),实则H0为真的概率为0.25,说明判假犯错的几率为2%,犯错几率很大,所以没有理由拒绝H0,应当接受H0。
p-value的作用:
p-value就是用来判断H0假设是否成立的依据。
因为期望值是基于H0假设得出的,如果观测值与期望值越一致,则说明检验现象与零假设越接近,则越没有理由拒绝零假设。如果观测值与期望值越偏离,说明零假设越站不住脚,则越有理由拒绝零假设,从而推出对立假设的成立。
p-value的计算:计算chi-suqare,计算自由度,查卡方分布表。
总的思路是
- 做出H0,H1这对互斥的假设,计算出H0为真时的期望值,统计出实际的观测值;
- 期望值和观测值的比较(chi-square检验,如果H0为真,两者相差应当很小);通过计算期望值和观测值求得chi-square(卡方)(chi-square求得值的含义是在一定自由度下,两者的相差程度,即H0成立,观测值符合H0的相符程度);
- 再通过卡方查表,查对应自由度下,期望值和观测值两者的相差程度(chi-square所得)对应的p值(这个p值代表,期-测在这个自由度下的相差值,拒绝零假设的判错概率(P value)(越大说明越有可能判错,H0实真却判为假), 例如P value在0.25到0.1之间,代表:这个期-测相差程度下,H0零假设为真,但拒绝H0真假设,发生错误拒绝的概率为0.1~0.25,即把真假设H0判错概率较大,不足以拒绝H0,则H0为真)。
- 根据p值与α(1-置信度)的比较,如果p-value<α,则拒绝(reject)H0,推出H1成立;如果p-value>α,则接受(accpet)H0,推出H1不成立。
P值越小说明,H0误判为假的概率越小,越有理由拒绝H0
p-value<α=0.05,H0判错几率小于0.05,则“H0成立,这个判断正确的几率大于0.95” 参考
理解:抽样总reads数目为n,突变数为k
1.提出H0:是mutation,H1:不是mutation
2.计算期望值--该位点总reads为n,期望突变的次数为m(可以根据参数p算,每一个位点在总reads为n,位点突变reads的个数m服从概率为p的二项分布,m~B(n,p))
求chi-square:
-- | 观测 | 期望 |
---|---|---|
突变 | k | m |
不突变 | n-k | n-m |
3.计算自由度=独立变量-1(突变与不突变,2-1=1),查卡方分布表里面chi-square对应的p value;p越小说明,小到小于α(ex=0.05),说明H0判错几率很小,则有足够把握拒绝H0,则H1成立,即拒绝H0,的判断95%是正确的,接受H1。
二项分布的缺点:
n大,p小时,突变次数为m的概率符合二项分布,但计算量巨大,此时突变次数为m的概率可以用泊松分布来拟合,同样可以求得突变次数为m的概率,计算公式较二项分布函数更为简便,可以减轻计算的压力。
3.泊松分布
二项-泊松-正态
10:18