连锁不平衡(linkage disequilibrium, LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率的现象。
一般用 D,D' 和 来表示 LD 的程度。
假定同一条染色体上有两个位点,各有两个等位基因(Aa; Bb),那么将有四种可能的组合方式:AB,Ab,aB 和 ab。假定等位基因 A 的频率为 P(A),B 的频率为 P(B),在不存在连锁不平衡的情况下,AB的频率为P(A)P(B);而如果 A 与 B 相关联,AB 的频率为 P(A) * P(B) + D,D 用于表示 A 与 B 之间的连锁程度。
如果等位基因 B 与疾病易患性有关,将会观察到等位基因 A 的频率在病人群体中高于对照群体。也就是说,等位基因 A 与该疾病相关。
事实上,通过检测遍布基因组中的大量遗传标记位点,或者候选基因附近的遗传标记来寻找因为与治病位点距离足够近而表现出与疾病相关的位点,就是等位基因关联分析或连锁不平衡定位基因的基本思想。
D
D 是 LD 的基本单位,用于度量观察到的单倍型频率与平衡状态下期望频率的偏差,计算方法如下:
D = P(AB) - P(A) * P(B)
P(AB):实际观察到的AB频率; P(A)*P(B):AB频率的期望值
如果发生连锁不平衡,实际观察到的AB频率肯定不等于AB频率的期望值。
如果D值显著偏离0,说明存在LD。
因为 D 的取值强烈地依赖于人为制定的等位基因频率,所以它不利于 LD 程度的比较。标准化的不平衡系数 D' 能够避免这种对等位基因频率的依赖。
D'
D' 的计算方法如下:
D' = D / Dmax
当 D < 0, Dmax = min{P(A)P(B), P(a)P(b)}
当 D > 0, Dmax = min{P(A)P(b), P(a)P(B)}
当 D' = 1,表示连锁完全不平衡,没有重组;
当 D' = 0, 表示连锁完全平衡,随机组合;
当 D' < 1,很难判断两个位点之间有多大程度的连锁不平衡。
D' 的局限性:
- 当单倍型为两种或三种时,|D'| 一定等于1;但是当 |D'| < 1 时,很难判定 D' 的值究竟表示多大程度的连锁不平衡。
- D' 严格依赖于样品的大小,如果样本偏少,SNP数量较少,尤其是某个位点其中一个等位基因频率很低时,算出来的D' 会偏大。
因此,较高的 D' 背后,实际上可能是连锁不平衡程度很低的两个位点。
统计学上较高的 D' 仅用于提示重组发生率较低。
的计算方法:
= D * D / P(A)P(a)P(B)P(b)
当 r2 = 1,表示连锁完全不平衡,没有重组
当 r2 = 0,表示连锁完全平衡,随机组合
与 D' 相比,具有较强的群体遗传学理论基础和一些统计学上的优势:
-
的期望值与有效群体大小及重组系数相关, = 1 / (1 + 4 * Ne * C)
Ne 是种群大小,C 是重组系数
有很好的取样特性,样本量和 的乘积就是所观察到的关联水平概率对应的卡方值。在检测 SNP 和致病位点之间的关联时,如果要达到同样的统计效力,所需要的样本量要增大 1/ 倍。
与 D' 相比,在同样长度的染色体范围内,往往更低,这个特性能够帮助我们找到更精度的基因定位。
与 D' 相比,受样本量和等位基因频率的影响较小(但影响仍然存在)。