为什么要做基于家系的关联分析?
关联分析是挖掘复杂疾病致病位点的一个有效方法。在人类的疾病基因研究中,一般有两种方法:一是条件-对照法(case-control, CC);二是传递连锁不平衡法(transmission disequilibrium test, TDT) (Spielman et al.,1993)。条件对照法要考虑到如何使患者组与正常对照组相匹配,以及人群、地理和社会背景等。而在这些不同条件下,等位片段的频率往往有很大的差异,这一现象被称为群体分层(populationstratification)。在条件-对照研究中出现阳性结果时,产生关联可以有3种原因:一是这个位点就是致病位点;二是这个位点与疾病位点存在连锁不平衡(LD);三是这种关联性是由于混杂因素(Confounder)造成的虚假联系。在条件一对照研究中出现阳性结果时,产生关联可以有3种原因:一是这个位点就是致病位点;二是这个位点与疾病位点存在连锁不平衡(LD);三是这种关联性是由于混杂因素(Confounder)造成的虚假联系。这种混杂很大程度上是群体分层(患病组与对照组在种族、人类学起源、临床情况甚至年龄或社会阶层等方面若不匹配,尤其是群体的遗传背景差异造成的两组间遗传标记等位基因频率的差异,则可导致假阳性结果,即群体分层[Population stratiifcation]问题[AltshulerDetal,2000]引起的,为克服这一问题,在研究方案的设计上必须注重病例组与对照组相匹配,对家系样本需增加患者父母未传递的等位片段作匹配比较。当某一特定等位片段在传递时出现的概率比随机的概率显著增多时,则认为存在连锁不平衡。基于此原理的遗传统计方法有对隐性遗传模式非常有效的传递不平衡(transmission disequilibrium test,TDT),以及患者家系对照者分析(affected family—based controls,AFBAC)、单倍型相对风险率分析(haplotyperelativerisk,HRR)等方法。TDT是在家系内进行关联分析(即famliy-based关联分析),观察双亲(至少一个是杂合子)将标记位点等位基因传递给患者的频率。
famliy-based关联分析原理
传递不平衡检验(TDT)是Spielman 在 1993 年发明的,它结合了连锁分析(观察家系内部的传递关系)和关联分析(基于普通人群,不需更多的同胞样品)的优点。传递不平衡检验(TDT)是一个对连锁的检验,而不仅仅是连锁不平衡。在连锁存在的情况下,此法能有效地应用于关联分析。
TDT是一个对连锁的检验,还是对连锁不平衡,或同时对两者的检验,曾经是争论的内容(Hodges E, 1993;1994;suarezBKetal, 1994;spielmanRsetal, 1994;1996;EwensWJetal,1995。对这个问题的解答依赖于样本的特性;如果样本由一组无关的病例及其双亲组成,那么TDT同时是连锁和连锁不平衡的检验(ShamPcetal,1995a);另一方面,如果数据是由从一个大家系中获得的,此家系中所有的患者都共享一个从一个共同的祖先遗传下来的疾病等位基因,这种情况下TDT则是一个对连锁的检验。总的来说,TDT在所有情形下都是一个有效的连锁不平衡检验,但对连锁不平衡的敏感程度依赖于样本中独立的祖先疾病等位基因的数目。由于大多数用于TDT分析的样本会包含许多单独的家系,TDT可以被认为是对连锁的检验,而随着连锁不平衡程度的增加其效能也跟着增加。一般情况下,当通过病例一对照研究已经揭示在人群水平上某标记位点与某性状(如疾病)间存在某种相关性(无论是真实还是虚假的关联)时,进行传递不平衡检验可以排除一些虚假关联的结果。通常在使用病例-对照研究确定存在关联,再使用这种方法进一步检验,从而排除病例对照研究中由于人群层化等因素造成的假阳性结果。
TDT 以患者及生物学父母为研究对象,检测双亲将某个遗传标记等位基因传递给受累后代是否表现为连锁不平衡。TDT 仅考虑遗传标记等位基因从杂合子父亲或母亲传递到受累后代的频率,而且这些概率偏离 0.5 的情况也只发生在一种情况下,即当遗传标记等位基因和疾病基因位点之间既存在连锁又存在等位基因关联的时候(假设群体中标记位点总体上不存在对孟德尔分离的偏离)。
TDT原理如下:
famliy-based关联分析优势
TDT只有在遗传标记和致病基因位点之间存在关联关系的前提下才能检测到连锁,如果这个前提不成立,那么TDT甚至不能检测到紧密连锁的两个位点之间存在的连锁关系,而传统的连锁分析方法不需要这个前提。与传统的连锁分析相比,TDT的优点;1.对同样的数据,TDT比单倍型分析灵敏度更高;2.TDT可以用于只有一个患者的简单核心家庭同时也可以用于有多个患者的大家系,对于患者数目不等的多个家系而言,TDT分析能直接将它们的数据合并进行分析,不会造成统计上的复杂性;3.TDT做为一个有效的连锁检验方法不依赖于任何遗传模式,虽然它对隐性遗传模式较显性遗传模式更为有效;4.无论前提的关联是由何种原因造成,无论层化现象存在与否,TDT分析都是对无连锁(=1/2)假设的有效检验;5.当遗传标记位点与致病基因位点相距很近或本身就是致病基因位点时,TDT比传统连锁分析更能有效检验出连锁(Spileman RS et al,1996;ThomsonGSetal,1995;EwensWJetal,1995。)当样本由无亲缘关系的简单核心家庭组成时,遗传标记等位基因传递独立性的假设成立,TDT分析(xZt动还可以作为遗传标记与致病基因位点之间是否存在关联的有效检验(sPilemanRSetal,1996。与患者一正常对照模式的关联分析相比,TDT分析检测关联的优点;1.消除了患者一正常对照模式的关联分析中患者群体和对照群体遗传背景差异造成的影响,可完全消除种族分层引起的误差;;2.只有连锁位点之间存在的关联才能被检测到;3.利用家庭关系可以对个体基因分型的准确性进行检验;4.父母各自对子代患者的影响可以区分开来;5.可以利用家庭关系对相邻的多个遗传标记构建单倍型,并分析单倍型和疾病的关系(Thomson Gs etal, 1995)。
当然,TDT分析也有其自身的局限性,由于一些疾病发病年龄较晚,亲代资料很难收集,TDT分析结果同样受到许多因素的影响,如;外显率不全,表型模拟,遗传异质性,致病基因型相对危险度(Genotypic relative risk, CRR)大小,致病基因和遗传标记等位基因频率,致病基因突变位点出现的年代,遗传标记与致病基因位点之间起始连锁不平衡程度大小,突变率和它们之间的重组率等。所以同样需要大的样本量才有利于严格意义的显著性结果的发现(Xiong MM et al, 1998; AbelLet al, 1998; Schaid DJ, 1998。
family-based关联分析缺点
①中老年发病患者中的双亲多已亡故,而不易取得标本;
②疾病异质性将明显降低相关分析的检出率,按疾病病理生理性状(又称中间性状)分成亚组或直接研究中间性状的相关位点,将有助于解析疾病的易感位点;
③由于外显不全,发病晚,对照群体内可存在尚未发病的个体,导致影响检出率;
④由于对遗传标记的杂合度要求较高,双亲必须是杂合子才能进行TDT分析,故SNP标记在TDT分析中较难发挥作用。
famliy-based关联分析一般流程
1)选择样本,确定分析群体。Family-based关联分析样本是患者及其生物学父母
2)收集样本的表型,注意疾病亚型区分
3)对样本基因基因分型
4)标记过滤,除了去除低质量、缺失率高的标记外还要去除不符合哈迪温伯格平衡的标记
5)传递不平衡检测
Family-based关联分析软件
1)UNPHASED
软件特性:
• Analysisof nuclear families and unrelated subjects, and combinations of the two
• Analysisof discrete or quantitative traits
• Maximumlikelihood treatment of missing genotype data and uncertain haplotypes
• Globalassociation tests and tests of individual haplotypes
• Conditioningtests that allow for previous associations of linked loci
• Inclusionof information from additional tag markers
• Supportfor non-genetic covariates including parent-of-origin
• Permutationtests allowing for multiple testing
软件链接:https://sites.google.com/site/fdudbridge/software/unphased-3-1
参考文献:Dudbridge F (2008) Likelihood-based association analysis for nuclear families and unrelated subjects with missing genotype data. Hum Hered 66:87-98(606次引用)
2)Polyunphased
Unphased的升级版,也是基于C++写的,有命令行和JAVA界面两种操作。相比于Unphased可以同时分析双歧表型(如某一疾病存在亚表型)。
软件路径:https://github.com/abureau/polyUnphased
参考文献:Polyunphased:an extension to polytomous outcomes of the Unphased package forfamily-based genetic association analysis.
3)FBAT(776)
采用McNeman检验,FBAT软件不足:未提供等位基因传递与未传递的数值;
参考文献:
Implementing a unified approach to family‐based tests of association. NM Laird, S Horvath, X Xu - Genetic epidemiology, 2000 - Wiley Online Library(被引914)
S Horvath, X Xu,NM Laird. The family based association test method: strategies for studying general genotype–phenotype associations. European Journal of Human Genetics, 2001 (被引776)
软件路径:https://content.sph.harvard.edu/fbat/default.html
4)PBAT
FBAT的升级版,PBAT可以计算power、可用于数量性状、也可以同时做多个性状/标记/模型
下载路径:https://www.hsph.harvard.edu/pbat/download/
5)PLINK
采用McNeman检验,PLINK软件的不足是未提供信息家系数。当信息家系亲代传递和未传递给患儿的等位基因数之和小于40时,PLINK软件的perm选项可提供确切概率
软件链接:http://zzz.bwh.harvard.edu/plink/fanal.shtml
6)TRANSMIT
该软件通过分析遗传标记等位基因从父母到子代患者的传递情况来检验该遗传标记与疾病位点之间的关联情况,其主要的有点在于它能够分析由多个位点等位基因所构成的单体型从父母到子代的传递情况,即使在基因型相位未知或少量父母基因型缺失的情况下。
7)Mendel
Mendel是一个包含个分析选项主要采的复合程序包,可对数量和质量遗传性状进行统计分析。Mendel软件可以提供多个等位基因(如STR标记)的TDT检验。Mendel提供了两种类似的运算方法,分别命名为TDT1(chi-sequare TDT statistic)和TDT2(largest standerdized residual TDT statistic)
除此之外还有:GENEHUNTER, UNPHASE,ASPEX
*原创文字,如果觉得对你有帮助留下你的赞哦~*