文献:导致 COVID-19 的 SARS-CoV-2 sarbecovirus 谱系的进化起源
发表时间:2020年7月
文章整体思路
1、无断点基因组区域的重组分析与鉴定
文章尝试解释人类冠状病毒 SARS-CoV-2的进化谱系,即尝试解释宿主物种的作用、重组的作用,进化中与其他动物病毒分化的时间。用3SEQ方法对包含SARS-CoV和SARS-CoV-2的sarbecoviruses亚属的68个病毒进行断点的分布和序列的推测研究,表明病毒经历了频繁的重组。频繁的重组使推测病毒的进化谱系十分具有挑战性,于是,研究者结合 3SEQ 推断的断点、GARD 推断的断点和 PI 信号这三种方法,去除基因组重组区域,推测 SARS-CoV-2的进化谱系。结果表明, SARS-CoV-2 和 RaTG13 具有单一祖先谱系。来自浙江省的另外两种蝙蝠病毒(CoVZXC21 和 CoVZC45)属于该谱系,是 2005 年至 2007 年间采样的 RaTG13/SARS-CoV-2 谱系和香港蝙蝠病毒进化枝的重组体。
a. 由 3SEQ 方法推断的断点,由68个病毒序列中支持该位置为断点的百分比表示。如果序列是相同重组事件的后代,则断点可以在序列之间共享。粉红色、绿色和橙色条显示无断点区域 (BFR) ,区域 A(nt 13,291–19,628)显示两个剪切后的片段,产生区域 A'(nt 13,291–14,932、15,405–17,162、18,009–19,628)。区域 B 和 C 分别跨越 nt 3,625–9,150 和 9,261–11,795。连接区域 A'BC 是 NRR1。开放阅读框以箭头的形式标注在断点图上方,可变环区域显示在 S 蛋白中。
b. SARS-CoV-2 与其他序列之间的相似性图,包括 RaTG13(黑色)、SARS-CoV(粉色)和两个穿山甲序列(橙色)。阴影区域对应于 S 蛋白。
c. 基于 2007 年在肯尼亚采样的病毒(BtKy72;外类群,图像中未显示)构建最大似然法系统发育树。显示了 sarbecovirus 比对的五个 BFR。用于系统发育推断的核苷酸位置是 147–695、962–1,686(第一棵树)、3,625–9,150(第二棵树,也是 BFR B)、9,261–11,795(第三棵树,也是 BFR C)、12,443–19,638(第四棵树)和23,631–24,633、24,795–25,847、27,702–28,843 和 29,574–30,650(第五棵树)。相关的 bootstrap 值显示在分支上,灰色阴影区域显示沿基因组表现出系统发育不一致的序列。
2、S蛋白子区域的系统发育关系
由于 SARS-CoV-2的S 蛋白与过去的重组事件或可能的趋同进化有关,研究者专门研究了 S 蛋白的几个子区域——S1 的 N 端结构域、S1 的 C 端结构域、可变C-末端结构域的环区和S2。SARS-CoV-2 中的可变环区域显示出与 2019 年穿山甲冠状病毒序列的相似性,高于与 RaTG13 蝙蝠病毒的相似性。这让研究者猜测 SARS-CoV-2 是Pangolin Guangdong 2019 和 RaTG13 祖先的重组体,通过重组和强纯化选择出现 SARS-CoV-2。然而,仔细观察后发现,系统发育树中的相对差异表明 SARS-CoV-2 不太可能从 Pangolin-2019 的祖先那里获得可变环,因为这两个序列在整个 S 蛋白(不包括 N 端结构域)中大约有 10-15% 的差异。RaTG13 在可变环区域中更加分散,因此可能是与未被采样的蝙蝠中sarbecovirus的重组的产物。这是值得注意的,因为可变环区域包含 RBD 中的六个关键接触残基,这些残基使 SARS-CoV-2 具有 ACE2 结合特异性。 这些残基也在Pangolin Guangdong 2019序列中。对这些共享的 ACE2 特异性残基的最简单的解释是,它们存在于 SARS-CoV-2、RaTG13 和Pangolin-2019 的共同祖先中,并通过导致 RaTG13 的谱系中的重组丢失。这为 SARS-CoV-2 谱系是蝙蝠直接或几乎直接的人畜共患病跳跃的结果提供了令人信服的支持,因为关键的 ACE2 结合残基存在于蝙蝠中传播的病毒中。(也就是说,ACE2 特异性残基存在于SARS-CoV-2和RaTG13 的祖先中,并且在RaTG13 的谱系中丢失。尽管RaTG13与SARS-CoV-2基因组差异较大且不具有ACE2 特异性残基等关键的基因,很有可能在一些我们未检测到的蝙蝠体内,RaTG13与其祖先进化出来的其他谱系的病毒发生重组,慢慢进化出SARS-CoV-2这种人畜共患病病毒。)
如底部条形图所示,除了 C 端域的 222-nt 可变环区域,SARS-CoV-2 和 RaTG13 是最密切相关的(它们最近的共同祖先节点用绿色圆圈表示)。在可变环区域,RaTG13 的TMRCA(time to most recent common ancestor) 与其他部分有很大差异,超出了 SARS-CoV-2 和Pangolin Guangdong 2019 祖先的差异,这表明 RaTG13 是从更分歧和未被发现的蝙蝠谱系中获得的。SARS-CoV-2 和 RaTG13(底部)之间的遗传距离表明,它们的关系在除可变环外的所有区域中都是一致的。除 N 端结构域外,SARS-CoV-2 与广东穿山甲 2019 之间的遗传距离在所有地区都是一致的,这意味着这两个序列在该地区不太可能发生重组。 NTD,N-末端结构域;CTD,C-末端结构域。
3、非重组区域的进化
非重组基因组区域(NRR1 )的系统发育描述了不同区域蝙蝠 sarbecovirus 种群的明显程度的空间结构的遗传多样性。Kenya/Bulgaria作为外类群,下图中包含人、蝙蝠和穿山甲中采样的病毒。虽然穿山甲可能是蝙蝠病毒进入人类的中间宿主——它们会患上严重的呼吸道疾病并且通常通过贩卖与人接触——但没有证据表明穿山甲感染是蝙蝠病毒进入人类的必要条件。
去除区域内的潜在重组信号,区域 A 缩短为 A' (5,017 nt)。区域 B 长 5,525 nt。不同颜色表示地图中不同省份。两棵树中系统发育位置不一致的五个序列用虚线标识。
4、用 SARS-CoV-2 谱系 NRR 的推算TMRCA
运用上述的三种方法得出的NRR: NRR1 、 NRR2 以及NRA3,来推断时间尺度上的进化历史。研究者试图通过分析先后采样的几种冠状病毒(包括 HCoV-OC43、MERS-CoV 和 SARS-CoV 病毒基因组)来确定合适的先验率分布以校准时间测量树。使用贝叶斯方法,研究者估计了快速的进化速率: SARS 病毒1年内的替换速率为每个位点 yr –1 0.00169 个替换, 95% 最高后验密度 (HPD) 区间 (0.00131,0.00205);MERS-CoV病毒4年内替换速率0.00078(0.00063,0.00092);HCoV-OC43 在近 50年中的替换速率(0.00024 (0.00019,0.00029) 。这些差异体现了进化速率的时间依赖性,即速率估计会随着测量的时间尺度而有很大差异,这是病毒中经常观察到的现象。在相对短的时间尺度上,这种差异可以主要通过改变选择压力,具有轻度的有害变体被通过纯化选择在更长的时间尺度更强烈地消除说明。与此一致,我们估计在较长的进化时间尺度内非同义替换率比值随之降低:分别有 SARS-CoV,1.41 (1.20,1.68)、0.35 (0.30,0.41) 和 0.133 (0.129,0.136)和 HCoV-OC43。鉴于这些时间依赖的进化速率动态,较慢的速率适用于校准 sarbecovirus 进化历史。
a – c,Root-to-tip (RtT) divergence在不同时间尺度上展开的三种冠状病毒进化历史(HCoV-OC43 ( n = 37; a ) MERS ( n = 35; b ) 和 SARS( n = 69; c ))。d,针对相同的三个数据集(用与各自 RtT 散点图中的数据点相同的颜色表示)以及使用两个不同先验的可比 NRA3 的采样时间范围绘制的平均进化率估计贝叶斯推理(红点)。
5、系统发育分歧时间的推测
使用最保守的方法 (NRR1),SARS-CoV-2 和 RaTG13 的分歧时间估计为 1969 年(95% HPD:1930-2000),而 SARS-CoV 与其最密切相关的蝙蝠序列之间的分歧时间估计为 1962 年(95 % HPD:1932-1988)。使用 NRR2 和 NRA3 估计实验结果大体一致: SARS-CoV-2 的分歧时间分别为 1982 (1948-2009) 和 1948 (1879-1999); SARS-CoV 与其已知的最接近的蝙蝠病毒的分歧时间分别是 1952 (1906-1989) 和 1970 年(1932-1996 年)。
SARS-CoV 的分歧时间比先前估计的日期早,因为先前的估计是使用人类和果子狸宿主(以及一些密切相关的蝙蝠基因组)的 SARS-CoV 基因组集合获得的,这意味着进化速率是主要受短期 SARS 爆发规模的影响,并且可能偏高。事实上,这些研究报告的发病率与我们估计的短期 SARS 发病率一致。与 SARS-CoV-2/RaTG13 谱系最密切相关的穿山甲病毒的估计分歧时间从 1851 年(1730-1958 年)到 1877 年(1746-1986 年),表明这些穿山甲谱系是从蝙蝠病毒中获得的这导致了 SARS-CoV-2。目前对穿山甲的采样并未暗示它们是中间宿主。
以 NRR1 推断的时间校准的最大进化枝可信度系统发育树。灰色对应蝙蝠病毒,绿色对应穿山甲,蓝色对应 SARS-CoV,红色对应 SARS-CoV-2。黑色内部节点圆圈的大小与后节点支持成正比。显示所有内部节点年龄的 95% 可信区间条。插图代表基于 NRR1、NRR2 和 NRA3 的发散时间估计。箱线图显示了 SARS-CoV-2(红色)和 2002-2003 年 SARS-CoV 病毒(蓝色)与其最密切相关的蝙蝠病毒的分歧时间估计值(后中位数)。绿色箱线图显示了 RaTG13/SARS-CoV-2 谱系及其最密切相关的穿山甲谱系的 TMRCA 估计值(Guangdong 2019)。箱线图显示四分位距,白线是中位数,箱线图显示后验分布的全范围。四分位间距宽度和具有相同颜色的透明带被叠加以突出估计之间的重叠。