0. 简介
这篇文章是2018年12月发表在期刊molecular system biology上的一篇关于SNV效应预测的资源数据库。通讯作者和第一作者都来自European Bioinformatics Institute的分子生物学实验室。该文章的亮点主要在于从分子机制层面解析SNV,在人类疾病相关的SNP研究中,早在2012年就有相关的对SNP进行注释的工作(以RegulomeDB为代表),那时还只是针对SNP与功能基因组在物理位置的overlap来注释。随后也有各种基于机器学习/深度学习对各种调控序列(TFBS、DHS、Methylation)建模, 然后根据SNP上下游的序列预测两个分值,再根据这个分值构建二分类模型,从而实现注释SNP。这样的软件有很多,随后又有文章FUMA整合了各种各样的预测软件,但个人认为FUMA这篇文章虽然发表了NC,而且引用也很高,但是却没有MSB这篇文章的意义、创新性大。
1. 摘要
- 在遗传学中,不论是编码区域还是非编码区域的SNV的效应都是生物学家感兴趣的。目前虽然也有很多计算方法用于阐述SNV在细胞机制中的效应,但是并没有直接全面覆盖SNV的分子效应 (molecular effects);
- 为了解决这个问题,作者汇编(compile; to collect information from different places and arrange it in a book, report, or list)了基于序列和基于结构的SNP效应predictor,并预测了人类和酵母中相对于参考基因组几乎所有的氨基酸和核苷酸变异;
- 这篇文章涉及到的机制研究包括: protein stability, interaction interfaces, post-translational modifications and transcription factor binding sites。作者向我们展示了如何使用这个数据资源来生成protein complex burden scores 进而与表型进行关联;
- 数据资源可以通过以下链接访问:www.mutfunc.com
2. 前言
- GWAS是将表型与基因型联系的重要手段,但是GWAS既不能找到causal variant,又难以解释causal variant的机制
- 编码区和非编码区的SNP都可以影响各种各样的生物学功能;
- 通过预测的手段去挖掘遗传变异改变的机制将是省时有省财的方法;虽然目前也有很多关于这方面的预测,但是都不能提供全面的预测效应以及解析机制而且使用起来需要专业人员操作;
- 因此这篇文章中作者大量的预测了人类、酵母和大肠杆菌中几乎所有SNV的变异,从不同层面(包括the context of conserved protein regions, protein stability, protein– protein interaction (PPI) interfaces, PTMs, kinase–substrate interactions, short linear motifs (SLiMs), start and stop codons, and tran- scription factor (TF) binding sites (TFBSs))解析SNP的机制。
3. 结果
3.1 在酵母和人类个体中功能基因组区域展现出了进化约束 (Functional genomic regions display evolutionary constraint across yeast and human individuals)
- 这部分作者主要从RSA、PTM、TFBS三个层面论证有功能的区域富集的自然变异更少
RSA: relative surface accessibility,蛋白质表面氨基酸残基的可及性。
Figure 1A-1B: 文章根据RSA将氨基酸残基分成bin,统计这个bin里自然变异(natural variation)的数目,与随机选取的残基进行比较(也就是纵坐标表示的expected variant count), 然后随机1000次(permutation),计算p值。发现隐藏(buried region; 对应1A, RSA越小表明是隐藏区域)与结合区域(interface region;对应对应1B, delta RSA越大表明事结合区域)与暴露在外面的区域相比,前者的自然变异数目更少;
Figure 1C: 这个图主要是想分析与随机相比,不同类型的PTM (翻译后修饰;去了上下游5个残基)富集的自然变异是否有差异;
Figure 1D: 从图C中我们并没有看出不同类型的PTM有很强的约束性,随后作者又分析了每个PTM上下游5个残基的自然变异富集情况,发现如果PTM的周围也有其他PTM存在的话,约束会变强(自然变异的数目变少);
Figure 1E: 接下来作者分析了TFBS内自然变异的富集情况,预测出来的TFBS里的SNV与chip-seq peak里的其他区域进行比较,有些转录因子结合区域是非常constraint;
Figure 1F: 进一步研究分析发现,那些TFBS聚成cluster的位点约束性更强;
-
Figure 1G: 作者首先使用了information content (IC)概念,是指:position-specific information content (IC) of the TF specificity position weight matrices,根据PWM计算出来的值,越大代表与TF结合能力越强。这个图表明IC越大,约束性越强,与预期的结果一致;
Figure 1H: 这部分作者举了四个例子表明高IC与低IC位置的约束性差异。
其他信息:(A, B, F) P-values represent a one-sided Wilcoxon test. (A, B, C, D, F) Error bars represent the standard deviation. One hundred random samples were used. (G) P-value shown is computed using a one-sided Kolmogorov–Smirnov test.
3.2 单核苷酸变异的机制效应的综合资源 (A comprehensive resource of mechanistic effects of single nucleotide variants)
- Figure 2A: 大范围的预测SNV对于保守蛋白区域、蛋白稳定性、蛋白相互作用表面、激酶-底物磷酸化以及其他的PTMs、linear motifs、TFBS、start and stop codons
3.3 功能重要的位置富含预测的有害变异 (Functionally important positions are enriched in predicted deleterious variants)
- Figure 2B: 首先用essential gene中是否拥有更少的致病自然变异,结论与之前一致,essential gene中致病的自然变异更少;
- Figure 2C: 致病自然变异与MAF的关系,从图中可以看出,MAF越大,致病的比例越低,这也暗示了罕见变异的重要性;
- Figure 2D: 此部分评估了不同软件对于致病变异的分类能力,SIFT拥有最好的分类性能。SIFT performed the best at discriminating pathogenic variants from benign (AUC H. sapiens = 0.87, S. cerevisiae = 0.92), followed by FoldX interfaces (AUC H. sapi- ens = 0.64, S. cerevisiae = 0.72) and FoldX stability (AUC H. sapi- ens = 0.70, S. cerevisiae = 0.62, Fig 2D).
- Figure 2E-2F: 虽然功能重要的区域中(preserves motif, disrupts motif, disrupts non-PTM res, disrupts PRM res, Start lost, Stop lost, Stop gain)致病自然变异的数目很少,但从统计意义来说,这些区域还是富含质变变异的。
3.4 对于不确定显著性的SNP预测其机制效应 (Predicting mechanistic impacts of variants of uncertain significance)
- VUS: variants of uncertain significance, 已经通过遗传检验检测出来的SNP,但是还不确定是benign或者pathogenic。
- Focus到影响蛋白结构完整性的变异
- 举例子证明找到的会影响蛋白结构的VUS
3.5 酿酒酵母菌株间的基因组差异是表型相似性的重要但弱的预测因子
-
这部分内容用来阐述如何使用mutfunc来进行基因型-表型的关联分析。
Figure 4A: 两个重复之间的S分值的一致性说明了数据一致性、可靠性。
Figure 4C: 93个测序菌株的基因型距离以及表型距离的散点图。
- Figure 4B: S-score在不同菌株不同条件下的热图。
3.6 Gene and complex disruption scores for genotype-to- phenotype associations
由于绝大部分变异都是中性的,因此此部分作者使用SIFT(for conservation), FoldX(protein stability)和protein truncating variants (PTVs)从基因水平计算a total gene burden或者disruption score
- Figure 5A: 基因水平计算a total gene burden或者disruption score的方法。