A resource of variant effect predictions of single nucleotide variants in model organisms

0. 简介

这篇文章是2018年12月发表在期刊molecular system biology上的一篇关于SNV效应预测的资源数据库。通讯作者和第一作者都来自European Bioinformatics Institute的分子生物学实验室。该文章的亮点主要在于从分子机制层面解析SNV，在人类疾病相关的SNP研究中，早在2012年就有相关的对SNP进行注释的工作（以RegulomeDB为代表），那时还只是针对SNP与功能基因组在物理位置的overlap来注释。随后也有各种基于机器学习/深度学习对各种调控序列（TFBS、DHS、Methylation）建模, 然后根据SNP上下游的序列预测两个分值，再根据这个分值构建二分类模型，从而实现注释SNP。这样的软件有很多，随后又有文章FUMA整合了各种各样的预测软件，但个人认为FUMA这篇文章虽然发表了NC，而且引用也很高，但是却没有MSB这篇文章的意义、创新性大。

文章链接

1. 摘要

在遗传学中，不论是编码区域还是非编码区域的SNV的效应都是生物学家感兴趣的。目前虽然也有很多计算方法用于阐述SNV在细胞机制中的效应，但是并没有直接全面覆盖SNV的分子效应 (molecular effects);
为了解决这个问题，作者汇编(compile; to collect information from different places and arrange it in a book, report, or list)了基于序列和基于结构的SNP效应predictor，并预测了人类和酵母中相对于参考基因组几乎所有的氨基酸和核苷酸变异；
这篇文章涉及到的机制研究包括: protein stability, interaction interfaces, post-translational modifications and transcription factor binding sites。作者向我们展示了如何使用这个数据资源来生成protein complex burden scores 进而与表型进行关联;
数据资源可以通过以下链接访问：www.mutfunc.com

2. 前言

GWAS是将表型与基因型联系的重要手段，但是GWAS既不能找到causal variant，又难以解释causal variant的机制
编码区和非编码区的SNP都可以影响各种各样的生物学功能；
通过预测的手段去挖掘遗传变异改变的机制将是省时有省财的方法；虽然目前也有很多关于这方面的预测，但是都不能提供全面的预测效应以及解析机制而且使用起来需要专业人员操作；
因此这篇文章中作者大量的预测了人类、酵母和大肠杆菌中几乎所有SNV的变异，从不同层面（包括the context of conserved protein regions, protein stability, protein– protein interaction (PPI) interfaces, PTMs, kinase–substrate interactions, short linear motifs (SLiMs), start and stop codons, and tran- scription factor (TF) binding sites (TFBSs)）解析SNP的机制。

3. 结果

3.1 在酵母和人类个体中功能基因组区域展现出了进化约束 (Functional genomic regions display evolutionary constraint across yeast and human individuals)

这部分作者主要从RSA、PTM、TFBS三个层面论证有功能的区域富集的自然变异更少

RSA: relative surface accessibility,蛋白质表面氨基酸残基的可及性。
Figure 1A-1B: 文章根据RSA将氨基酸残基分成bin，统计这个bin里自然变异（natural variation）的数目,与随机选取的残基进行比较（也就是纵坐标表示的expected variant count), 然后随机1000次（permutation），计算p值。发现隐藏（buried region; 对应1A, RSA越小表明是隐藏区域）与结合区域（interface region;对应对应1B, delta RSA越大表明事结合区域）与暴露在外面的区域相比，前者的自然变异数目更少；
Figure 1C: 这个图主要是想分析与随机相比，不同类型的PTM (翻译后修饰；去了上下游5个残基)富集的自然变异是否有差异；
Figure 1D: 从图C中我们并没有看出不同类型的PTM有很强的约束性，随后作者又分析了每个PTM上下游5个残基的自然变异富集情况，发现如果PTM的周围也有其他PTM存在的话，约束会变强（自然变异的数目变少）;
Figure 1E: 接下来作者分析了TFBS内自然变异的富集情况，预测出来的TFBS里的SNV与chip-seq peak里的其他区域进行比较，有些转录因子结合区域是非常constraint；
Figure 1F: 进一步研究分析发现，那些TFBS聚成cluster的位点约束性更强；
Figure 1G: 作者首先使用了information content (IC)概念，是指：position-specific information content (IC) of the TF specificity position weight matrices，根据PWM计算出来的值，越大代表与TF结合能力越强。这个图表明IC越大，约束性越强，与预期的结果一致；
Figure 1H: 这部分作者举了四个例子表明高IC与低IC位置的约束性差异。
其他信息：(A, B, F) P-values represent a one-sided Wilcoxon test. (A, B, C, D, F) Error bars represent the standard deviation. One hundred random samples were used. (G) P-value shown is computed using a one-sided Kolmogorov–Smirnov test.

3.2 单核苷酸变异的机制效应的综合资源 (A comprehensive resource of mechanistic effects of single nucleotide variants)

20190304-Fig2.png

Figure 2A: 大范围的预测SNV对于保守蛋白区域、蛋白稳定性、蛋白相互作用表面、激酶-底物磷酸化以及其他的PTMs、linear motifs、TFBS、start and stop codons

3.3 功能重要的位置富含预测的有害变异 (Functionally important positions are enriched in predicted deleterious variants)

Figure 2B: 首先用essential gene中是否拥有更少的致病自然变异，结论与之前一致，essential gene中致病的自然变异更少；
Figure 2C: 致病自然变异与MAF的关系，从图中可以看出，MAF越大，致病的比例越低，这也暗示了罕见变异的重要性；
Figure 2D: 此部分评估了不同软件对于致病变异的分类能力，SIFT拥有最好的分类性能。SIFT performed the best at discriminating pathogenic variants from benign (AUC H. sapiens = 0.87, S. cerevisiae = 0.92), followed by FoldX interfaces (AUC H. sapi- ens = 0.64, S. cerevisiae = 0.72) and FoldX stability (AUC H. sapi- ens = 0.70, S. cerevisiae = 0.62, Fig 2D).

Figure 2E-2F: 虽然功能重要的区域中（preserves motif, disrupts motif, disrupts non-PTM res, disrupts PRM res, Start lost, Stop lost, Stop gain）致病自然变异的数目很少，但从统计意义来说，这些区域还是富含质变变异的。

3.4 对于不确定显著性的SNP预测其机制效应 (Predicting mechanistic impacts of variants of uncertain significance)

VUS: variants of uncertain significance, 已经通过遗传检验检测出来的SNP，但是还不确定是benign或者pathogenic。
Focus到影响蛋白结构完整性的变异
举例子证明找到的会影响蛋白结构的VUS

3.5 酿酒酵母菌株间的基因组差异是表型相似性的重要但弱的预测因子

这部分内容用来阐述如何使用mutfunc来进行基因型-表型的关联分析。
Figure 4A: 两个重复之间的S分值的一致性说明了数据一致性、可靠性。
Figure 4C: 93个测序菌株的基因型距离以及表型距离的散点图。

Figure 4B: S-score在不同菌株不同条件下的热图。

3.6 Gene and complex disruption scores for genotype-to- phenotype associations

由于绝大部分变异都是中性的，因此此部分作者使用SIFT(for conservation), FoldX(protein stability)和protein truncating variants (PTVs)从基因水平计算a total gene burden或者disruption score

Figure 5A: 基因水平计算a total gene burden或者disruption score的方法。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345