干货分享 | 如何解读非编码区变异？Nature|Science|NC等来支招！

20世纪60年代末，非编码区由于不直接编码蛋白质，被认为是没有功能的“垃圾 DNA”。自人类基因组计划完成后，数千项的 GWAS 研究揭示了与特定性状或疾病相关的常见遗传变异93％都位于非编码区。由于非编码区基因具有连锁遗传、远距离作用的特点，很难找到它们的靶基因；且具有极强的动态性，很难知道它们在哪个组织中起作用；此外，了解其上游调节因子也是一个未解决的问题。这些都给探究非编码区变异位点的作用机制增加了难度[1]。

那么，在拿到 WGS 结果后，如何对非编码区的变异进行解读呢？我们来看一下Nature、Science、Nature Communications 等权威期刊中有哪些解决策略。

非编码区变异注释数据库

人类基因组计划完成之后，许多针对调控基因组的大规模研究逐渐开展，Nature、Scence 上发布了很多公开可用的数据库，有助于我们探索非编码区DNA的功能。主要有ENCODE、Roadmap、GTEx[2-4] 。此外，2021年Nature公布了EpiMap[5]，Nucleic Acids Research 上公布了 VARAdb[6]。

ENCODE

ENCODE，DNA 元素百科全书（http://www.encodeproject.org），致力于绘制人类与小鼠基因组功能性元件的综合图谱。涉及 RNA 转录、染色质结构和修饰、DNA 甲基化、染色质环以及转录因子和 RNA 结合蛋白等，共鉴定出了20,225个蛋白质编码基因和37,595个蛋白质非编码基因，注释了包括人类基因组中的90万个调控元件的注释信息。ENCODE 计划的第三阶段还开发了一个顺式调控元件相关注释信息表并构建了一个网站(SCREEN;http://screen.encodeproject.org)，意在揭开人类基因组功能元件的全面图谱。

GTEx

GTEx ，基因型和基因表达量关联数据库（https://gtexportal.org/home/)，于2010年9月发起，该数据集包括了838个捐赠者和17382个来自52个组织和两个细胞系的样本，同时进行了转录组测序和基因分型分析，构建了一个组织特异性的基因表达和调控的数据库。GTEx 数据库不仅仅是一个正常组织的基因表达量数据库，其 eQTL 分析的策略更值得我们借鉴。

EpiMap

EpiMap，表观遗传图谱（http://compbio.mit.edu/epimap）。EpiMap 整合了Encode、Roadmap、以及 GGR 注释图谱数据库的833个生物样品，涵盖了包括H3K4me1, H3K4me3, H3K27ac, H3K36me3, H3K9me3，H3K27me3 多种组蛋白修饰、Rad21、CTCF 等 Chip-seq 数据，体现 DNA 开放性的 Dnase-seq, ATAC-seq等18种表观遗传标记，绘制了表观遗传图谱。有了这张图谱，科学家将能够寻找引发疾病的变异位点，找到其作用的基因和机制，以此来研发药物和预防疾病发生。具体应用有（1）基于多个表观遗传修饰信号注释了染色质状态（chromatin states），同时结合DNA可及性注释增强子；（2）将增强子分为不同的模块（enhancer modules），并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因；（3）整合增强子位置，增强子和基因的远程交互作用和 GWAS SNP 结果，预测 SNP 的靶基因和组织特异性；（4）将 GWAS 性状划分为“单因子”和“多因子”性状，揭示了它们与疾病的关系。

VARAdb

VARAdb，共编目了577,283,813种变异，并提供了包括“变异信息”、“调控信息”、“相关基因”、“染色质可及性”和“染色质相互作用”在内的5个注释部分（http://www.licpathway.net/VARAdb/）。这些信息包括基序变化、风险 SNPs、LD SNPs、eQTLs、临床变异药物-基因对、序列保守、体细胞突变、增强子、超级增强子、启动子、TFs、ChromHMM 状态、组蛋白修饰、ATAC 可达区域和来自 Hi-C 和 ChIA-PET 的染色质相互作用。此外，VARAdb 可以根据评分对变体进行优先排序，对新变体进行注释，并方便地进行路径下游分析。

非编码区变异致病性预测软件

了解非编码区变异的功能，除了通过数据库进行注释外，评估其遗传变异的致病性是非常重要的。其中非编码区变异致病性排序的工具主要有 CADD、Deepsea 和 GWAVA[7]。此外，2021年，Nature Communication 上发表了新的非编码区致病性预测工具 gwRVIS[8]，该软件旨在促进对非编码人类基因组中的区域进行优先排序，这些区域在发生突变时更有可能与临床相关效果相关。此外，文中对常用致病性排序工具进行了对比，发现 gwRVIS 在非编码区不同功能区内：lncRNA、intergenic region、UTRs、UCNEs和VISTA enhancer致病变异预测能力表现良好。且在 GWAS-catalog 和 Mendelian 验证中有很好的效果。

深度学习算法应用

由于基因组学研究在本质上对序列局部依赖性和长程相关性等特征及其大规模和深层次的数据特性很好地契合了神经网络算法（CNN）的工作逻辑，近年来飞速发展的深度学习技术成为了非编码区突变功能性研究的一项利器。目前基于 CNN框架进行非编码区变异优先级排序的工具有 DeepBind、DeepSEA、Basset、DanQ、Basenji 等。2019年，研究者例用 DeepSEA 模型构建了分类器，获得每个在自闭症患者群体中观察到的突变的疾病相关性分数。通过对自闭症患者与对应同胞进行比较，研究人员发现前者所具有的突变对应的疾病相关性分数显著高于后者，这表明通过 DNA 突变对基因调控因子的扰动能力来预测其疾病相关性是有效的[9]。2020年，DeepFun 模型在现有 CNN 模型基础上，整合了来自 ENCODE和 Roadmap 的数据，呈现了密集的人类-人类表观基因组图谱。模型的不断升级，有助于非编码区变异致病性的预测的准确性提升[10]。

针对人类基因组非编码区的注释数据库和变异致病性预测排序软件较多，可根据不同软件的特性和功能，进行选择使用。此外，随着多组学技术的蓬勃发展，多种组学联合分析，如将基因组与转录组测序、启动子甲基化测序、表观遗传修饰测序、转录因子/RNA结合蛋白结合位点测序等大规模数据进行联合分析，可多角度解释和预测相关基因的功能、剖析机体中复杂的遗传因素与机体表型的关联及其具体作用机制。

参考文献

[1] Gallagher MD, Chen-Plotkin AS. The Post-GWAS Era: From Association to Function. American Journal of Human Genetics,2018,102(5):717-730.

[2]E. A. Feingold, P. J. Good, M. S. Guyer,et al.ENCODE Project Consortium. The ENCODE (ENCyclopedia Of DNA Elements) project[J]. Science,2003,306(5696), 636–640.

[3] Kundaje A, Meuleman W et al. Integrative analysis of 111 reference human epigenomes[J]. Nature,2015, 518(7539), 317–330.

[4] Ardlie KG, Deluca DS, Segrè AV et al. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans[J].Science, 2015,348(6235), 648–660.

[5]Boix CA, James BT, Park YP, et al. Regulatory genomic circuitry of human disease loci by integrative epigenomics[J]. Nature. 2021,590(7845):300-307.

[6] Pan Q, Liu YJ, Bai XF, Han XL,et al. VARAdb: a comprehensive variation annotation database for human[J]. Nucleic Acids Research. 2021,49(D1):D1431-D1444.

[7] Zhang W, Zhang H, Yang H,et al. Computational resources associating diseases with genotypes, phenotypes and exposures[J]. Briefing in Bioinformatics. 2019 ,20(6):2098-2115.

[8] Vitsios D, Dhindsa RS, Middleton L, et al. Prioritizing non-coding regions based on human genomic constraint and sequence context with deep learning[J]. Nature Communations. 2021,12(1):1504.

[9] Zhou J, Park CY, Theesfeld CL, et al. Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk[J]. Nature Genetics. 2019,51(6):973-980.

[10] Eraslan G , Ž Avsec, Gagneur J , et al. Deep learning: new computational modelling techniques for genomics[J]. Nature Reviews Genetics, 2019，20(7):389-403.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

干货分享 | 如何解读非编码区变异？Nature|Science|NC等来支招！

推荐阅读更多精彩内容