基本概念
连锁不平衡(LD,linkage disequilibrium)是指 不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)的关联。
两个基因座互相独立不相关,即连锁平衡 linkage equilibrium 的状态。
常用的指标:D', r2(相关系数,correlation coefficient)【更常用】
当D'=0,r2=0时,处于完全连锁平衡状态
当D'=1,r2=1时,处于完全连锁不平衡状态。
其中,从0-1之间的度量越高,LD越高,如果两个位点连锁,连锁程度也越高。
计算方法
一、网站
二、PLINK 1.90
https://www.cog-genomics.org/plink2/
1.计算两个SNP之间的LD
plink --bfile mydata --ld rs2840528 rs7545940
原理:采用EM algorithm、基于haplotype frequencies的计算
2.计算多个SNP之间的LD
plink --file mydata --r
或者
plink --file mydata --r2
结果会生成一个后缀为.ld的文件
原理:基于等位基因数的计算
其他筛选指标:
--ld-window 10
计算10个相关的SNP之间的LD,默认值为 10
--ld-window-kb 1000
计算的区间,默认值1Mb
--ld-window-r2 0.2
r2的阈值,默认值0.2,如果需要输出所有LD结果,则设为0
3.计算特定一个SNP与其他SNP之间的LD
plink --file mydata
--r2
--ld-snp rs12345
--ld-window-kb 1000
--ld-window 99999
--ld-window-r2 0
计算距离rs12345位点1Mb范围内的所有位点的LD值
如果需计算rs12345与指定snp list之间的LD,则采用
--ld-snp-list mysnps.txt
4.用clump计算SNPs之间的LD
原理:基于SNP之间LD的一种经验估计方法
首先需要计算SNP与观察结局之间的关联性(即准备一个.assoc文件)
再使用下面代码
plink --file mydata --clump mytest1.assoc
结果会生成一个后缀为.clumped的文件
其他筛选指标:
参考:
https://zhuanlan.zhihu.com/p/362250519
https://www.cog-genomics.org/plink/1.9/
https://zzz.bwh.harvard.edu/plink/tutorial.shtml