概览
- Title:From GWAS to Function: Using Functional Genomics to Identify the Mechanisms Underlying Complex Diseases
- 标题:从GWAS到功能:使用功能基因组学识别复杂疾病的潜在机制
- Date:2020.5.13
- Journal:Frontiers in Genetics(IF=4.7)
- Citations:370
一句话简介
文章对后GWAS时代的研究热点-探究非编码SNP的功能探究进行了综述,并探讨了未来的发展方向。
虽然IF不高,但这是一篇通俗易懂的好文章,从citation数就可以看出。非常适合初学者(我)学习入门。
综述结构
引言
-
识别与复杂疾病相关的细胞类型
- 基于全基因组显著性Gwas变异的Snp富集分析
- 全基因组 Snp 富集分析
- 基于Snp遗传力的富集分析
-
优先考虑GWAS位点的致病基因
- 共定位分析
- 共定位在复杂疾病中的应用
- Twas:基因和性状的直接关联
-
解释GWAS关联的未来前景
- GWAS与单细胞基因组学的整合
- 多基因风险评分与功能注释的整合
- 使用基因编辑验证 GWAS 发现
结论
引言
自身免疫、神经退行性疾病和心血管疾病等常见的非传染性疾病是当今医疗保健中最紧迫的挑战之一。这些疾病受到遗传易感性与环境或生活方式因素之间相互作用的影响。这些疾病受到数千种常见遗传变异的额外贡献的影响,每种变异对表型的个体影响很小。它们的遗传结构遵循多基因模型而非孟德尔模型,这使得研究复杂疾病具有挑战性。
尽管GWAS取得了成功,但从其结果中得出的临床见解仍然有限,这是由于难以解释GWAS关联。解释GWAS关联的挑战有以下三点(Fig 1):
(1)相邻的遗传变异通常彼此相关,因为它们往往由于减数分裂重组过程中的共分离而遗传在一起,这种现象被称为连锁不平衡(LD)。LD 导致一个基因座中的多个变异存在于同一个个体中,由于存在很强的相关性,这使得很难得到真正casual的variants。
(2)目前尚不清楚哪些细胞类型是疾病的真正驱动因素(即,哪些细胞类型GWAS变异起作用),哪些是疾病致病过程的结果。
(3)超过90%的GWAS变异属于基因组的非编码区域,因此不会直接影响基因的编码序列。这些变体在DNA调节元件(cRE)中的积累,可能通过破坏转录因子结合位点(TFBS)在调节基因的表达水平起作用。然而,与疾病相关的基因座通常包含多个基因,因此很难区分受影响的基因座。
- 总之,有必要进行后续研究来解释GWAS结果,包括推断确切的疾病致病变异、它们调节的基因以及它们起作用的细胞类型
在这里,我们回顾了一些促进GWAS结果解释的方法,重点关注SNP富集(SNP enrichment)和共定位(Colocalization)方法,并重点介绍了从这些研究中得出的一些生物学结论。有关精细映射(fine-mapping)的详细方法,我们向读者推荐以前的综述(Schaid等人,2018)。最后,我们反思了后GWAS研究的一些挑战和机遇,例如高通量单细胞测序平台的可用性,相关中间表型的鉴定,多基因风险评分(PRS)的开发,以及基因工程在GWAS验证中的系统应用。
Identifying Cell Types Relevant to Complex Diseases 识别与复杂疾病相关的细胞类型【主要介绍SNP enrichment】
Snp Enrichment Analysis Based on Genome-Wide Significant Gwas Variants 基于全基因组显著的Gwas变异的Snp富集分析
SNPsea方法指出,对于给定性状,GWAS位点如果在给定细胞类型中特异性表达的基因中被富集,则优先考虑该细胞类型。
GWAS变体可以与染色质注释相结合,例如开放染色质区域(ATAC-seq或DNase)、组蛋白修饰(例如,H3K4me1,H3K4me3,H3K27ac和H3K27me3)、DNA甲基化等。与基因表达相反,染色质标记可以与GWAS SNP在物理上重叠,因此可以直接从位于注释中的SNP中估计富集分析(Fig 2)。ENCODE、Roadmap Epigenomics、BLUEPRINT project等数据库为这些SNP enrichment提供了丰富的资源。
接下来作者递进式地介绍了集中SNP enrichment的方法,包括:
- 二项检验(Maurano等人,2012):将GWAS SNP与来自HapMap项目的一组常见SNP相比,GWAS SNPs在DHS区域富集,且具有组织特异性。
- GREGOR(Schmidt等人,2015):将GWAS SNP与具有相似特性(即LD,基因密度和与TSS的距离)的随机SNP集进行比较,发现GWAS SNPs通常在活跃的调控区富集。
- epiGWAS(Trenka等人,2013):考虑了峰内SNP的位置和峰的高度
- GoShifter(Tlynka等人,2015):不受给定基因组区域中的高LD的影响
- Pasquali 等人分析了人类胰岛中的开放染色质、TF 结合和基因表达,将这些特征与 GWAS 位点整合到 2 型糖尿病和空腹血糖中。作者使用基于排列的测试来估计富集,并得出结论,血糖和 2 型糖尿病 SNP 在胰岛增强子中强烈富集,它们破坏了关键胰岛 TF 的 DNA 结合。(https://www.nature.com/articles/ng.2870)
- CHEERS(Soskic等人,2019):可以解释染色质景观的细微变化,以识别跨细胞状态的SNP富集(https://www.nature.com/articles/s41588-019-0493-9)
Genome-Wide Snp Enrichment Analysis 全基因组 Snp 富集分析
以上所描述的方法利用了来自全基因组显著SNP的信号(Table 1)。然而,复杂的性状是由数千个风险等位基因引起的,大多数与性状相关的SNP仍未被发现(Vischer 等人,2017 年)。因此,将分析限制在全基因组显著的变异上可能会限制检测生物学重要富集的统计能力。这促使许多方法的发展,这些方法使用所有常见的SNP来估计富集。
- fGWAS(Pickrell,2014):可以“重新权衡”并发现最初未达到全基因组意义的变异的关联信号。
- GARFIELD(Iotchkova 等人,2019 年):将每个 SNP 的性状关联状态建模为概率,定义为变体特征的函数(即,与功能注释重叠、到最近的 TSS 的距离和 LD 代理的数量),从而允许在计算中包含更多的SNP。
Enrichment Analysis Based on Snp Heritability 基于Snp遗传力的富集分析
遗传力是由于遗传变异导致的性状变异的比例。SNP遗传力是由一组给定的SNP解释的表型变异量。 已经开发了许多方法来估计性状的SNP遗传力,使用个体水平的基因型或来自GWAS的汇总统计
LDSC(Finucane等人,2015):如果GWAS变体在功能类别中富集,那么属于该类别的变体将比其他变体解释更多的性状遗传力。作者发现,基因组的保守区域解释了更多的遗传力。此外,针对疾病相关细胞类型的增强子内的变异也解释了很大一部分遗传力。
LDSC-SEG(Finucane等人,2018):LDSC方法的一个局限性是它依赖于染色质活性谱,而染色质活性谱并不总是可用的。相比之下,基因表达谱可用于更多数量的细胞类型,包括丰度较低的细胞类型。LDSC-SEG利用基因表达谱来推断细胞特异性的SNP富集。
RolyPoly(Calderon等人,2017):具有较高GWAS效应大小的变异往往接近在致病组织中表达较高的基因。使用回归模型,RolyPoly 估计细胞类型特异性基因表达对每个组织中 GWAS 效应大小方差的影响。
Prioritizing Causal Genes at GWAS Loci 优先考虑GWAS位点的致病基因【Colocalization】
一旦确定了最相关的细胞类型,下一步就是优先考虑与疾病有因果关系的基因。对于编码变异,候选基因的鉴定最直接,因为变异会直接破坏蛋白质的结构。
然而,GWAS鉴定的90%的变异是非编码的。这些变异被认为通过修饰启动子和增强子活性或破坏TF的结合位点等机制来调节基因表达。一个例子是 1q13 位点,它包含与低密度脂蛋白胆固醇水平和心肌梗死显着相关的变异。该变体被证明产生一个新的TF结合位点,这反过来又导致增强子结合蛋白的募集,急剧增加附近基因SORT1的表达。反过来,SORT1 会下调低密度脂蛋白的水平。这使得 SORT1 成为心肌梗死中一个有趣的药物靶点。
大多数与疾病相关的变异被认为通过类似于 SORT1 位点的机制起作用。然而,GWAS基因座通常包含多个基因,识别致病基因具有挑战性。分析分子性状(例如,基因表达、DNA 甲基化、TF 结合)并将其与 GWAS 结果相结合,有助于将非编码变异与其靶基因联系起来并揭示潜在的调控事件。
Colocalization Analysis 共定位分析
分子性状的量化,例如数千个具有不同基因型的个体的基因表达,使遗传变异与中间性状(数量性状位点定位,QTL)相关联(Fig3A)
高通量测序成本的降低导致了数十项QTL定位研究,包括基因表达(eQTLs)、蛋白质表达(pQTLs),外显子剪接(sQTL)、DNA甲基化(mQTLs)、染色质乙酰化(acQTLs)和染色质可及性 (caQTL)。其中,eQTL是最常见的,部分原因是RNA测序技术的稳健性。最全面的 eQTL 资源之一是基因型组织表达项目 (GTEx),该项目分析了近 1,000 个个体的 53 个组织。另一项举措是BLUEPRINT项目,测量了197个个体外周血中最丰富的细胞类型的转录组,以及DNA甲基化和组蛋白修饰。
将QTL图谱与GWAS相结合可以识别疾病关联的潜在分子机制。这方面的早期例子只是评估GWAS变异是否也是重要的eQTL。Nicolae等人(2010)的一项研究将GWAS结果与来自人类淋巴母细胞样细胞系的eQTL相结合,得出的结论是GWAS SNPs成为eQTLs的可能性几乎是随机SNP集的两倍。
然而,这些早期方法没有充分控制GWAS和eQTL信号背后的遗传结构,导致大量假阳性结果。特别是,SNP之间的连锁不平衡使得确定GWAS和QTL位点中的哪些变异在因果关系上驱动关联变得具有挑战性。重叠的eQTL和GWAS信号可以用三种可能的情况来解释(Fig3C):(1)LD中两个独立的因果SNP相互之间(连锁),(2)通过调节基因表达(因果关系)来影响性状的单因果SNP,或(3)对性状和基因表达有独立影响的单因果SNP(多效性)。区分这些情况对于正确解释GWAS结果至关重要。
此外,eQTL是丰富的,估计有48%的常见遗传变异充当至少一个基因的eQTL,这使得GWAS和eQTL信号之间的重叠可能是偶然发生的。这促使了正式统计测试的发展,这些测试估计两个信号之间由于偶然性而重叠的概率。这些方法称为共定位测试。(Table2)
RTC(Nica等人,2010):首先识别具有潜在共定位的位点,然后从eQTL效应中回归,即位点中最重要的GWAS SNP。然后使用回归残差重新测试eQTL关联。为了解释该区域的LD,对该区域的所有SNP重复该过程,并将顶级GWAS SNP的影响与其他变体的影响进行比较。在存在真正的共定位的情况下,顶级GWAS SNP的回归系数的影响明显大于该区域任何其他变体的影响。
COLOC(Giambartolomei等人,2014):共定位检验:使用GWAS汇总统计量计算与原假设相比共定位的几率。自发布以来,COLOC已成为共定位测试的参考方法。
MOLOC(Giambartolomei 等人,2018 年):COLOC的一个局限性是它一次只能测试两个特征。MOLOC 扩展了 COLOC 的原始配方以包括多种性状,这些性状可以是独立的GWAS、分子性状或两者的组合。
eCAVIAR (Hormozdiari等人,2016):精细映射可以独立应用于GWAS和QTL关联,然后进行整合。eCAVIAR可以扩展为在任意数量的因果SNP的假设下找到共定位,同时考虑LD。
ENLOC(Wen等人,2017):如果一个性状的大多数GWAS SNP也是给定细胞类型中的eQTL(即,如果GWAS SNP在eQTL中富集),那么两个性状之间的大多数重叠将由真正的共定位驱动。相反,如果GWAS SNPs没有在该细胞类型的eQTL中富集,则更多的重叠预计是偶然的。
最后,GWAS变异的影响并不局限于邻近的基因,并且可能产生更多的远端效应(反式eQTL)。例如,GWAS变体可能会影响TF的表达,从而对下游基因产生连锁反应。反式 eQTL 远离其靶基因,并且往往具有较小的效应量,这使得它们在中等样本量下绘制图谱极具挑战性。此外,据估计,反式 eQTL 的数量远多于顺式 eQTL,可能导致许多假阳性共定位。基因表达研究的样本量不断增加,使我们能够系统地绘制反式eQTL,并将提供更多的统计能力来检测GWAS和反式eQTL之间有意义的共定位。
Application of Colocalization to Complex Diseases 共定位在复杂疾病中的应用
共定位分析特别有用的领域之一是确定免疫介导疾病的潜在机制。。。。。。。
共定位还指出了与这些疾病有关的基因和功能元件。。。。。。
共定位的另一个特别有用的领域是心血管疾病。。。。。。。
最后,共定位分析还可以为复杂性状中共享遗传结构之间的关系提供信息。。。。。
Twas: Direct Association of Genes and Traits Twas:基因和性状的直接关联
全转录组关联研究(TWAS)利用来自 GWAS 和 eQTL 目录的信息来预测病例和对照的转录组,从而允许性状和基因的直接关联,而无需直接分析 GWAS 中包含的每个个体的基因表达。
基于基因型预测基因表达是可能的,因为基因表达具有高度可遗传性,并且大多数基因表达遗传性可归因于与基因接近(顺式)的变异。TWAS使用组织特异性eQTL图谱作为参考数据集来训练预测器,这些预测器将个体的基因型作为输入,并估计其转录组水平(图4A)。这些预测器仅使用来自顺式 SNP 到基因的信息,并且仅限于具有高度可遗传表达的基因。该预测过程类似于基因型插补,并允许性状与每个基因的表达之间直接关联(图4B)。此外,通过关注基因表达的可遗传成分,它最大限度地减少了疾病引起的基因表达变化的混淆。
PrediXcan(Gamazon等人,2015)是TWAS的实现,它使用弹性网络模型来预测eQTL目录中的基因表达。它可以发现与复杂疾病相关的基因。这些基因中的大多数是GWAS的已知候选基因,同时也有以前没有发现的基因。重要的是,由于TWAS直接将性状与基因相关联,因此这些关联具有明确的效果方向性。
EpiXcan(Zhang 等人,2019 )考虑了 DNA 甲基化或组蛋白修饰等注释,每个SNP在预测中的贡献由其与贝叶斯分层模型中的调控元素的重叠进行加权。当应用于 58 个性状和 14 个 eQTL 数据集时,与 PrediXcan 相比,EpiXcan 的基因-性状关联数量增加了 18% 以上。这些关联大多是组织特异性的。
总之,共定位和TWAS优先考虑与复杂疾病有因果关系的基因。共定位分析将来自 GWAS 和 QTL 的关联信号整合到一个位点的基础上,以识别两个性状共享因果变异的实例。相比之下,TWAS利用eQTL目录中的信息来推断基因表达值,并将基因与性状直接关联。来自更多细胞类型以及更大样本量的QTL目录的可用性将改善基因优先级,并将GWAS结果转化为精细的疾病致病基因集。
Future Perspectives in Interpreting GWAS Associations 解释GWAS关联的未来前景
富集和共定位分析优先考虑与复杂疾病有关的组织和基因。然而,这些方法在很大程度上受到综合参考功能数据集的可用性的限制。例如,富集和共定位主要依赖于来自bulk的基因表达数据。然而,来自大块组织的基因表达谱以最丰富的细胞类型为主,并且不捕获有关细胞组成和细胞类型频率的信息。此外,共定位方法纯粹是观察性的,不能建立因果关系。例如,SNP可以通过独立的机制(即多效性)影响基因和性状,而共定位无法最终将这种情况与单一的因果变异区分开来。因此,候选基因需要额外的实验验证才能明确地建立因果关系,例如,通过将GWAS变体与单细胞检测相结合,或使用基因编辑技术验证候选基因。
Integration of Gwas With Single-Cell Genomics GWAS与单细胞基因组学的整合
单细胞基因组图谱的高分辨率使其成为SNP富集分析的有前途的资源。g-chromVAR将精细映射的GWAS变体与bulk和单细胞造血细胞和祖细胞谱系的染色质可及性谱集成在一起。将每个单细胞中染色质可及性的定量水平与从精细映射推断的每个变异的因果关系的后验概率相结合。富集估计值在整个分化轨迹中各不相同,并集中在造血的特定阶段。例如,随着细胞分化为巨核细胞(血小板的前体),与血小板计数相关的变异逐渐富集。相反,富集随着向淋巴谱系的分化而减少。
单细胞技术还可以扩大目前的共定位范围。由于这些检测的通量正在以前所未有的规模增长,现在可以在大规模个体群体中分析单细胞转录组,从而可以绘制单细胞 eQTL (sc-eQTL)。其中一项研究分析了从 45 名健康个体的外周血中分离的 45,000 个单细胞中的基因表达,并确定了在血液中不同细胞类型中具有相反作用的 eQTL。例如,rs4804315 增加了 NK 细胞中 ZNF414 的表达,但在 T 细胞中降低了 ZNF414 的表达。此外,作者还总结了先前报道的HLA-DQA1和CTSC基因的两个单核细胞eQTL,并表明它们对经典单核细胞亚群具有特异性。这些结果很难从批量基因表达测量中获得。这项研究可以作为概念验证,并展示了单细胞eQTL关联如何迅速与GWAS整合。
单细胞测序的另一个优点是可以将细胞排序到时间进程轨迹中,从而为用于eQTL映射的关联模型添加时间分量。这允许在不同的分化阶段鉴定具有不同效应大小的eQTL(动态eQTL)。两项研究绘制了人类诱导多能干细胞(iPSCs)分化过程中的动态eQTL。
Integration of Polygenic Risk Scores With Functional Annotations 多基因风险评分与功能注释的整合
全基因组关联研究变异可用于识别疾病高危个体。这可以通过将个体携带的数百种疾病相关变异组合成一个反映其整体遗传风险的单一评分来实现,即多基因风险评分(PRS)。将 PRS 与流行病学风险因素(如年龄、性别、吸烟状况、饮食或疾病家族史)相结合可以改善个体的分层,从而可能导致更有效的临床干预。随着GWAS研究样本量的增加和更大的验证队列的出现,多基因风险评分的性能有所提高。
尽管取得了这些进展,但多基因评分仍面临严峻的挑战。首先,预测精度仍然很低。其次,PRS 基于欧洲 GWAS,其在人群之间的可转移性较低。最后,人们对PRS的功能机制知之甚少。其中一些挑战现在正在使用功能注释来解决。
Validation of Gwas Findings Using Gene Editing 使用基因编辑验证 GWAS 发现
将CRISPR编辑平台与信息丰富的功能读数相结合可能是验证GWAS结果的有力方法。
基因编辑方法也可用于研究非编码基因组。例如,CRISPR干扰(CRISPRi)使用引导RNA和Cas9酶的缺陷版本来防止调节元件接触其靶基因。相反,CRISPR激活(CRISPRa)使用与Cas9蛋白融合的转录激活因子来增强转录。这些工具可用于绘制疾病相关调节元件的功能。
理想情况下,基因编辑应在与疾病相关的细胞类型中进行(例如,在SNP富集优先的细胞中)。然而,目前的基因编辑方法大多局限于细胞系。需要进一步的技术发展来常规应用基因编辑作为GWAS的后续策略。
结论
GWAS关联与细胞类型特异性功能数据的整合极大地促进了我们对遗传变异如何导致疾病的理解。一方面,SNP富集方法能够根据细胞类型和组织的疾病相关性对细胞类型和组织进行优先级排序。这些方法通过测试特定细胞类型特有的调节元件中变异的积累来起作用。它们可以限制在全基因组显著变异上,也可以根据所有常见SNP的贡献来估计富集。另一方面,共定位分析整合了eQTL和GWAS关联,利用LD信息和关联模式来鉴定GWAS位点的靶基因。此外,TWAS允许通过转录组插补将基因与表型直接关联。这些方法开始揭示受自身免疫、精神分裂症和冠心病等复杂疾病影响的组织和基因。然而,它们受到当前功能数据集分辨率的限制,无法建立因果关系。未来,我们预计GWAS与单细胞数据的整合以及通过基因编辑和细胞表型验证候选基因将帮助我们将GWAS研究结果转化为临床上可操作的基因集。
原文链接
https://www.frontiersin.org/articles/10.3389/fgene.2020.00424/full