2020年5月，gnomAD数据库在Nature及其子刊上发了一个特刊，共7篇文章（不算评论和新闻）

特刊链接：https://www.nature.com/immersive/d42859-020-00002-x/index.html

gnomAD的前身是Exome Aggregation Consortium (ExAC)，经过这么几年的积累，数据量已经提升到了15,708人的全基因组测序（WGS）和125,748人的全外显子组测序（WES），观察到的小型遗传变异(单核苷酸变异SNV和短插入/缺失变异Indel)也从7.4 million上升到了241 million。

（我自己是很想全部看完并做好笔记分享出来的，但是精读起来还是需要些时间精力的，所以借组会分享文献的机会，先从最主要的这篇文章开始看起吧~以下根据自己的理解进行了梳理，有偏差和错误的地方欢迎批评指正！本文图片来自文章、或自己制作、或网络来源见水印）

Flagship paper -- 《The mutational constraint spectrum quantified from variation in 141,456 humans》Nature

标题直译：从141,456人的突变中量化得到的突变约束谱

一、背景及概念整理

1、什么是LoF突变？

LoF = loss-of-function 功能丧失，本文和以往的认知主要将以下3种突变认为成是LoF：

① Stop-gained：在外显子区域内引入提前的终止子（nonsense，无义突变的一种）

② Frameshift：移码突变，使得转录阅读框产生移位的突变，从而使得后续转录翻译的产物产生大规模变化，一般是由微小的indel引起。

③ Splice：剪接突变，蛋白质编码转录本中的每个外显子的左右有两个关键的剪接位点，该位置的核苷酸发生改变，可能导致错误的剪接。（正常剪接见下图）

2、为什么要关注LoF突变？

一般我们想要了解一个基因的功能，会将破坏性突变引入基因，或者对该基因进行敲除，继而观察和测量突变后的模式生物或人类细胞系，分析突变对细胞或生物的生理表型存在怎样的影响。因为科研伦理和技术限制，我们不能直接对人类进行功能缺失突变的实验和大规模研究，即不能随意在人类中进行基因编辑。

所以，LoF突变作为天然存在于人类中的破坏性突变，通过对大规模的LoF突变及人类表型进行观察，也可以总结出基因的功能和特性。

3、大规模评估LoF突变需要面临的挑战？

一般来说，LoF突变的频率非常低，而且绝大部分都是有害的；另外，由于mapping、genotyping、嵌合体情况、注释错误等等，会增加LoF突变被发现的假阳性（Science 2012 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3299548/）

为了在全基因组范围内系统地发现LoF突变，我们需要大量样本的测序数据（WES或WGS），以及仔细的筛选流程以去除假阳性，来解决上述两个问题。

4、什么是constraint（约束）？

这个话题可以认为是编码区变异的自然选择分析，约束可以认为是某个区域的突变受到了限制，即突变数的减少、突变频率很低。

这里的理论基础主要是“幸存者偏倚”。举个我记不清国家和名字的例子，二战时期某国的战斗机被频频击中，为了提高战斗机的抗击打能力，军队对返航的战斗机进行了观察和统计，记录了所有被击中的弹痕位置，正在他们准备加固被击中位置的时候，一位数学家提出了：没有发现弹痕的位置更需要被加固，因为被回收的飞机受到击打后还足以坚持飞回军营，但是有的飞机是被就地击落或无法返回，这些弹痕位置是从返回飞机上看不到的。经此提醒，可以发现在返回飞机上观察不到的弹痕位置更集中于驾驶舱和发动机这些关键部位。类比一下，我们可以认为驾驶舱和发动机是战斗机上的“受约束区域”。

在变异与自然选择原则的关系中，一个重要假设就是：自然选择清除有害变异。

关于这个假设，我们已经可以观察到的是：有的基因或区域上受到了明显的约束，即变异数非常的少；或者等位基因频率有明显的偏倚，如在不同群体间的SNP频率有明显差异。

评估约束程度或者受选择程度的建模方法，现在比较常用的是比较“真实的观察值observation”和“通过某些方法建模得到的期望值expectation”。同义突变 synonymous variation作为没有功能变化的突变，一般不受到选择影响，所以同义突变相关的值某种程度上可以作为参考值或基线数据。

5、过往研究及限制

众所周知且适用度很广的就是基于ExAC的60,706人全外数据建立的模型：pLI（The probability of intolerance to heterozygous pLoF variation），pLI将足够长度的基因分为:pLI≥0.9，LoF突变不耐受基因，共3230个基因；pLI ≤0.1，LoF突变耐受基因，共10,374个基因。这些基因列表和评分结果可以在网上获得，很容易地注释到需要用的数据中。（Nature 2016 原文链接：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5018207/#SD1）

另一篇文章也是利用了ExAC的数据，在罕见的蛋白质截断变异(protein truncating variants，PTVs)中估计了LoF变异的选择系数，发现最强的选择富集于敲除后小鼠胚胎致死的基因、假定的细胞必需基因、孟德尔疾病基因和转录调节因子。(Nat Genet. 2017 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5618255/ ）

过去研究的限制在于：

① pLI是一个二分模型。可以大致认为它能较好得将单倍剂量不足的基因（下图左）和失活耐受的基因（下图右）区分出来，但是中间程度的比较难被辨识出来。

② pLI的模型只适用于足够长度的基因。应该是因为该模型使用的算法是：expectation-maximization algorithm （我没仔细看。。。），可分析的基因须有一定长度才可计算，对于长度较短的基因可能会有遗漏和错误评估（吧）。

③ 关于选择的研究，只在部分确定的PTVs上进行了研究，并非所有LoF变异以及所有变异，突变种类有限。

二、本文如何面对挑战、突破限制？（全文框架）

1、硕大的样本量：在125,748人的WES和15,708人的WGS中识别出了可能的LoF变异（predicted LoF variants, pLoF）

2、仔细的筛选：严格的样本质控 + 自定义的随机森林过程-突变QC + pLoF过滤包（LOFTEE） + 部分分析进行了进一步的过滤和人工校正

3、优化的预测模型：loss-of-function observed/expected upper bound fraction(LOEUF)：连续模型，对基因长度无特殊要求

4、模型效果验证，生物学特性，疾病病原学分析

三、文章具体展开

1、A high-quality catalogue of variation （就是样本和突变质控）

严格的样本质控主要删除了：各种测序质量指标较低的样品；二级或近亲属的样本；不充分同意发布数据的样本；已知患有严重儿童期发病疾病的人以及他们的直系亲属。

突变质控的亮点是随机森林质控过程，这里具体不做解释了，有兴趣的可以仔细研究。

最后保留了125,748人的WES，15,708人的WGS，分别有14.9million和229.9million的小突变。人群分类结果用UMAP的形式展示了出来，可分为6个global+8个sub-continental ancestries，共14个祖源类型。

突变分布及饱和度概览：类似2016年ExAC的文章，对不同类型突变的MAPS值、观察到突变的预期比例、数量等进行了简单分析。

单核苷酸可变调整比例(MAPS)值越高，表示较低频率变体越丰富，表明危害性越大。低频率突变在pLoF类突变中富集，这表明其更高的危害性。

CpG的转换比非CpG的转换和颠换更趋于饱和（即可预测到的突变~60%及以上都被观察到了），除了受选择的pLoF或低甲基化区域(5 ‘ UTR)较低。意味着还有很多突变是没有被观察到的，可能是受到选择的

2、Identifying loss-of-function variants （重点是LoF突变筛选的概念和流程）

文中定义了LoF突变（上文背景中提过了），对用一般注释工具注释完并筛选出的候选LoF突变，利用作者自己开发的 loss-of-function transcript effect estimator (LOFTEE)工具包进行了进一步筛选，这个工具主要是会移除可以避免无义衰变的突变，比如在转录终端截断的突变（我猜可能对蛋白质影响不大）或最后不影响剪接的剪接突变（rescued splice variants，我猜是这个意思）。

LOFTEE的效果评估：
尽管没有使用频率信息，这种方法保留了罕见的、可能有害的变异和报道过的致病变异（左）。
该方法过滤了一些潜在功能变体(粉色)，显示出与错义变体一致的频谱。（右）

经过LOFTEE筛选后，保留了443,769个高可信度变异，其中413,097属于16,694个基因的规范转录本上，以及一组在基本剪接位点之外的假定剪接变异。作者还根据以下步骤做了一个gene level的pLoF度量，确定了2636个高质量突变@1815个纯合双等位型LoF耐受基因（这部分基因在后面有用）（更正：原来对biallelic理解有偏差，不是纯合，是双等位基因的意思，就是这个突变只有A\T两种等位基因型；另一个词是multiallelic-多等位基因的，就是这个突变有A\T\G\...等多种等位基因型）

3、The LoF intolerance of human genes （这段其实讲了两个模型。。。）

第一个模型：优化的突变预测模型

在过去的研究中提供了预测基因上发生突变数量的模型（Nat Genet. 2014的《A framework for the interpretation of de novo mutation in human disease》链接：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4222185/），本文中作者加入了甲基化（CpG突变率）校正、碱基水平覆盖度校正、LOFTEE这三个因素到模型中，对模型进行了优化，用来预测在中性选择下的突变预测值（expected）。

每个基因预期变异数的中位数为17.9，并发现72.1%的基因有超过10个变异数(可以归类为最受限的基因)。另外可以看到样本量对预测值和观测值都有很大的影响，以ExAC的样本量仅可以预测到13.2（中位数）和 62.8%受限基因。

第二个模型：Loss-of-function Observed/Expected Upper bound Fraction (LOEUF)

利用第一个模型计算出的期望值作为Expected，可以发现，每个基因的O/E比值的分布不是二分的，而是连续的（左）；LOEUF是该比值90%置信区间的上界（右）。（为什么是90%？我猜是这个值可以将基因数量分得更平均）这个方法的一大优势是也可以识别较短长度的基因，举个例子：一个短基因(observed = 0, expected = 2; LOEUF = 1.34) ，一个长基因(observed = 0, expected = 100; LOEUF = 0.03)，他们的LOEUF差别还是很大的。

后续分析中，作者将19,197个基因分成十分位数，每十分位数大约有1,920个基因，按每个十分位数中的基因的均值/箱线图来进行分析，颜色和上图的红→灰对应。首先简单的可以看到：
在第一个LOEUF十分位数的基因中：pLoF突变十分罕见，即观测到的概率很低（左）；聚集了以前表现为高pLI的基因（中）；
在最后一个LOEUF十分位数的基因中：包含了最多的纯合LoF耐受基因（右）。

由此可推测，LOEUF十分位数的基因分组，从左至右，由“不耐失活”→“相对耐失活”。

4、Validation of the LoF-intolerance score （和经过实验验证的知识库进行比较验证，反正效果好就对了~）

a. 发现LOEUF符合已知基因集的预期分布：已知的单倍剂量不足基因中pLoF突变是非常少的；而嗅觉受体是相对不受约束的；具有已知常染色体隐性遗传机制的基因位于分布的中间，对杂合破坏变异的选择往往存在但较弱。

b. LOEUF与另一篇系列文章中发现的6735个罕见的常染色体缺失结构变异重叠蛋白编码外显子的发生呈正相关

c. 在小鼠杂合缺失后具有胚胎致死同源基因的389个基因中，我们发现与剩余的18808个基因相比，LOEUF得分更低。

d. CRISPR筛选所鉴定的对人类细胞存活至关重要的678个基因（与18,519个背景基因相比）在一般人群中缺少LoF变异，而777个非至关重要的基因则更有可能不受限制

5 & 6、Biological properties of constraint & Constraint informs disease aetiologies

左a. LOEUF与蛋白相互作用网络中的基因连接程度和功能表征相关。

左b. 在基因型-组织表达(GTEx)项目中，受限基因更有可能在38个组织中广泛表达，且平均表达量较高，与之前的结果一致。

右a. 5305 case - 2179 control 的智力残疾或发育障碍患者研究，在LOEUF最constrained的第一个十分位基因组中，case中的denovo pLoF的突变率比control高出了15倍；第二个十分位组中稍微增高了2.9倍。

右b. 尽管pLoF变异非常罕见，但约束基因中其他频率更高的变异也可能是有害的，包括其他编码或调控变异的影响。在对UK Biobank和其他大规模全基因组关联研究(GWAS)中658个性状关联结果的遗传力划分分析中，我们发现基因附近有大量的常见变异关联，这些关联与许多性状的LOEUF十分位数线性相关。

另外，Fig 4c 和 Fig 5c其实在其他的Companion papers中有具体的分析和结论，这里就先不具体展开了。

四、研究意义与展望

gnomAD这个数据集中大量的发现，表明了human ‘knockout’ project在不久将来的可行性和可观的价值。这个project就是指系统地尝试发现所有人类蛋白编码基因在杂合子或纯合子状态下功能性破坏突变的表型变化。

而且在现有的样本量下，我们还没有观察到人类外显子组中所有可能的变体，即这些突变远远没有达到饱和。更大的样本量和祖先多样性的增加，将有利于绘制一个全面的人类基因组突变地图，直接联系基因破坏变异与人类生物学。

（原文的讨论部分主要都是文字，懒得具体翻译了，提取出了几句我自己觉得比较画大饼的话总结一下 0.0）

gnomAD系列文章总结(1) -- Flagship paper -- 《The mutational constraint spectrum quantified from variatio...