01 什么是全基因组复制
多倍化(polyploidy)或全基因加倍/复制(whole genome duplication, WGD)事件是指基因组内的所有序列都发生重复,重复为生物进化提供了原始的遗传材料,使植物基因组快速重组,丢失大量基因,增加结构变异,对植物进化极其重要。
全基因组加倍事件结果:可以增加一个物种所有的基因拷贝,但在自然选择的作用下,
倍增后的基因会经历不同的命运:
- 部分拷贝丢失;
- 失去功能(假基因化);
- 部分拷贝获得新的功能(新功能化);
- 或者各自行使祖先基因的部分功能(亚功能化)。
02 为什么研究全基因组复制
多倍体植物广泛存在于自然界中,如日常生活中的马铃薯、小麦、棉花等。多倍化事件或全基因组复制事件直接将染色体进行加倍,被认为是一种物种分化的驱动力。研究发现多倍化在有花植物进化过程中十分频繁,在现存的被子植物和种子植物分化之前,都分别发生过加倍事件,可能对花和种子的产生有重要贡献 (Jiao et al., 2011)。基因组加倍为物种提供了丰盛的演化材料(图1)。被认为是提升了物种多样性、环境适应能力等(Jiao, 2018)。多倍化后的物种需要在原植物多倍化的研究对于生物进化、物种保护及遗传育种等方面都具有重要的理论指导意义及实践应用价值。
全基因组复制(Whole genome duplication, WGD),为物种提供了丰盛的演化材料。虽然全基因组复制事件被认为是提升了物种的环境适应能力,但一切都仅仅只是假说。实际上,多倍化一直以来都被认为是物种命运“死胡同”,因为多倍化后的物种需要在原先的“社会环境”中与二倍体物种争夺生态位。相反,由于具有更多演化的可能性,多倍化物种能够在有高环境压力胁迫的环境中拔得头筹,因此高胁迫环境的出现就如滤筛一般,帮助多倍化物种获得生态位。
过去的十年是对植物古多倍化研究的高峰时期。一些重要的古多倍化事件,与这些事件带来的物种爆发以及个别基因功能的演化,不断得到识别。例如:
- 在 被子植物和种子植物 开始大规模分化前,其祖先各发生了一次 古多倍化 事件;
- 在 单子叶和双子叶植物 中,其分别经历了 早期的多倍化:Gamma以及Tau事件 ;
- 在 被子植物 中,那些物种丰富的科都有过一样的故事:如菊科、十字花科、葫芦科、豆科、禾本科、以及兰科等。
看似对于重要类群而言,没有全基因组复制事件傍身,都不好意思发生分化。
不同证据表明,全基因组复制事件发生于植物演化的不同时期。但巧合的是,有大量的重复事件发生于白垩纪-第三纪大灭绝事件(Cretaceous–Paleogene,K-Pg),也被称为K-Pg线,即传闻让所有恐龙不复存在的那次生物大灭绝事件。这也暗示着,全基因组复制事件可能帮助物种适应当时恶劣的气候环境,使得他们于灭绝事件中存活下来。但对于此,一切都仅仅是猜测,尚未有明确的遗传学证据证明。
先前的研究识别了不同类群的WGD事件所复制的基因,虽然他们并没有将这些事件串联起来,以总结被子植物的规律,但结果也揭示了,基因组复制事件的确是物种自身的基因调控网络变得更为复杂的原因之一。
03 如何鉴定全基因组复制
鉴定全基因组复制的方法一般可以通过以下三种:
(1)共线性分析
共线性块 推断WGD的有无及其倍性(或者基于共线性基因 的溯祖树/物种树推断WGD是否共享);
第一种可以通过基因(基因组)的共线性(synteny)进行识别,方法比较直观。其方法是全基因组范围比较两个物种的基因(基因组)的序列,并将同源序列的位置绘制成点状图,如果能在点状图中发现比较明显的长片段,并且这样的长片段比较多,便可以推测是由于大尺度的基因组重复以后保留下来的痕迹,而一般我们假想这种大尺度的基因组重复往往就是全基因组发生了复制。
同样,对于单个物种而言,我们也可以绘制基因组内部的共线性的点状图,如果发现同一个物种的基因(基因组)的区间可以匹配到多个不同的区间中,这就暗示了该物种经历过基因组的加倍事件。但对于经历过多次全基因组加倍事件的物种来说,后来的加倍事件会加速上一次加倍事件的基因丢失,造成上一次加倍事件的痕迹越来越不明显,这也给共线性分析带来干扰。
(2)同义突变率 Ks 方法
假设这个基因没有受到自然选择压力,那么根据中性选择理论,非同义替换率和同义替换率应该是相同的。但一般来讲,非同义替换会造成氨基酸的改变,进而影响蛋白质的构象和功能,因此会造成适应性的变化,从而带来自然选择的优势或劣势(一般是劣势)。而同义替换没有改变蛋白质的组成,因此不受自然选择的影响,那么 Ks 就能反映进化过程的背景碱基的替换率。Ka/Ks 的比值就能说明这个基因是受到了何种选择。
Ks 代表了进化过程的背景碱基替换率,因此可以用 Ks 来反推事件发生的时间,如全基因组多倍化的时间,这在探究物种起源方面有重要应用。这也是目前比较流行的方法。全基因组加倍事件会产生大量的同源基因,反映在 Ks 值上便是会有大量的 Ks 值接近的同源基因对的产生,通过统计这些同源基因对的数量,绘制Ks 值的分布图便可以发现明显的 Ks 值峰,而这些峰也就对应了全基因组的加倍事件。这种方法是基于两点假设:基因的突变频率是稳定的;同义突变(Ks)不会影响物种适应性,因为并不会造成氨基酸序列的变化。
要进行 Ks 分析,首先要找到 同源基因对,在不同的物种里面(比如向日葵-咖啡),是找最近的直系同源基因(ortholog),而在一个物种内部(比如向日葵-向日葵),则是找最近的旁系同源基因(paralog)。通过计算这些基因的 Ks 值,我们就可以绘制出不同 Ks 值对应的基因对数量的分布图。旁系同源基因对的 Ks 分布峰值对应全基因组复制事件,直系同源基因对的峰值对应物种的分化事件,借助于物种分化事件对应的时间,可以推出全基因组复制事件发生的时间。
当然 Ks 值也有一些不可避免的限制,比如很难应用于比较古老的基因组加倍事件的识别,这是因为随着时间的推移,同义替换趋于饱和,会导致 Ks 值计算的偏差,对于寻找古老的基因组加倍事件造成困难。
(3)4dTV 分析
4DTV( four-fold synonymous (degenerative) third-codon transversion)一个遗传密码子通常由三个核苷酸构成,从左到右依次为第一个位点、第二个位点、第三个位点。如果密码子的某个位点上无论是哪种核苷酸,均编码同样的氨基酸,则称这个位点为 4 倍简并位点。例如甘氨酸密码子(GGA, GGG, GGC, GGU)的第三个位点就是一个 4 倍简并位点。按照密码子表,目前只有某些密码子的第三个位点才可能是 4 倍简并位点。4 倍简并位点存在使得使基因更加耐受点突变,可以容忍密码子第三位的任何变异 。
04 基于共线性推断全基因组加倍
基因组共线性是基因组加倍比较直接的证据,通过比较两个基因组的序列并将共线性的区域作图展示,可以直观发现全基因组加倍的痕迹。
- 如图2(左)苹果基因组(Daccord et al., 2017)的circos图中,可以明显染色体间大片段的共线性,表明该物种 近期 发生了全基因组复制。
- 在向日葵基因组(Badouin et al., 2017)中,通过基因组自身的比对 展示如图2(右),对角线为物种自身的基因和其本身的共线性。其余的点为基因组其他位置的旁系同源基因对。图中红色圆圈标注的位置,表明这两段之间具有一定的共性,为基因组加倍事件留下的痕迹。
如果物种经历过多次全基因组加倍事件,近期的加倍事件会加速早期加倍事件的基因丢失,早期的加倍事件痕迹往往越来越不明显,共线性直观上不明显,这就需要我们探索其他方式来挖掘加倍事件,这就用到了4DTv和Ks的信息。下面我们对这两种方式来进行简单的介绍。
05 为什么 4DTv 和 Ks 能够反映全基因组复制
同义突变 指突变并不影响氨基酸序列,进而不会影响蛋白结构与功能。一般认为,同义突变不受自然选择,同义突变率(Ks)的计算为同义突变SNP数/同义位点数。由于同义位点突变不会引起氨基酸的变化,可以认为对编码蛋白没有影响,那么密码子同义位点的变化是完全随机的,并随时间推移累积。如果物种发生了全基因组加倍事件,现有基因组中会有一定数量的基因保留下来,,计算得到的Ks值也接近,在某一个Ks值处会形成一个峰(ks peak)。如果这处Ks值的基因数目足够多,就会形成比较尖的峰值,可以认为在进化过程中该处发生过全基因组加倍事件。
全基因组加倍发生的时间越久远,基因丢失越多,发生的变化也要越大,形成的Ks峰越扁平,影响对全基因组加倍事件的判断。
4DTv与Ks有异曲同工之处(Tang et al., 2008)。如果密码子的某个位点上任何核苷酸的改变都不影响其编码的氨基酸,则称这个位点为4倍简并位点(fourfold degenerate site)。是指共线性区段所包含的基因对的4DTv值可反映物种在进化史中的物种相对分化事件以及全基因组复制事件。4DTv指4D位点上发生颠换(嘌呤突变为嘧啶或者嘧啶突变为嘌呤)的位点所占的比例。
06 全基因组复制 4DTv 和 Ks 结果解读
以辣椒基因组文章中的4DTv和罂粟基因组文章中的Ks结果为例,解析全基因组复制事件。在辣椒基因组(Qin et al., 2014)文章中(如图3),选取了辣椒(pepper)、葡萄(grape)、土豆(potato)、番茄(tomato)进行4DTv分析。结果如下图。从图中可以看出在辣椒和葡萄分后(黄色线,4DTv值0.5处),茄科植物辣椒、土豆和番茄在分化之前共同发生了全基因组复制(图中指示WGD位置,黑线、蓝线和红线在4DTv值0.3处的峰值),之后辣椒和番茄分开(图中绿线,4DTv值0.1处)。
关于4DTv如何推断全基因组加倍时间,文章中也给出了建议:在4DTv值0.48和0.1处分别为辣椒和葡萄、辣椒和番茄的物种分化时间,对应的时间点为∼89和20Mya,辣椒、番茄和土豆共有的全基因组加倍事件在4DTv值约0.3处,基于此可以大致推断该全基因组复制事件发生的时间约在55Mya。
在罂粟基因组文章(Guo et al., 2018)中,选取了罂粟(opium poppy)、耧斗菜(Aquilegia coerulea)、莲(otus)、葡萄(grape)、拟南芥(Arabidopsis)进行Ks分析,结果如下图,从Ks峰图和进化树可以看出:
- (1)葡萄和罂粟在Ks值约 1.6 处(黄线)分开;
- (2)葡萄在Ks值约1.4处(绿线)发生了核心双子叶植物共有的全基因组三倍化事件;
- (3)耧斗菜在Ks值约1.0-1.2处发生了单独的全基因组复制,由于复制时间比较久远,所以峰较为扁平;
- (4)莲在Ks值约0.5处发生了单独的全基因组复制事件;
- (5)罂粟在Ks值约0.1处发生了全基因组复制,这是一个较为近期的全基因组复制事件。通过公式
T=Ks/2r
可以计算全基因组加倍事件发生的时间,r为核苷酸替代率,在文章中使用了6.98 × 10-9,计算得到的加倍时间在7.8百万年前。
07 鉴定全基因组复制后还能做些什么
- 全基因组加倍后的 复制基因的命运 各有不同,其保留与丢失是否有偏向性 ?
- 哪些基因倾向于保留,保留基因功能是否发生变化 ?
- 保留的重复基因及其对调控网络进化的影响 ?
- 基因组加倍在被子植物的适应性进化中发挥的作用,如何帮助植物适应剧烈环境变化等(Wu et al., 2020),这些都是全基因组复制后续可以挖掘的内容。
08 基因特征对全基因组重复产生基因进化命运的影响 (性格决定命运)
多倍化在被子植物中普遍存在,几乎所有的被子植物基因组都经历过多倍化事件,与人们生产生活密切相关的许多作物都是多倍体或古多倍体。多倍化是被子植物进化的重要力量,许多植物物种就是多倍化形成的。例如,拟南芥基因组经历了至少3次多倍化事件,水稻基因组经历了至少2次多倍化事件,玉米基因组经历了至少3次多倍化事件。在多倍化发生后,整个基因组将经历快速的进化以重建二倍体的二倍化过程。在二倍化过程中,发生大量持续性的基因丢失事件。在以往的研究中发现,二倍化过程中基因的保留和丢失具有显著的偏好性,某些功能类别的基因更倾向被保留下来。然而,基因保留和丢失的偏好性这一现象背后的机制至今尚没有明确的结论。
中国科学院昆明植物研究所国家大科学装置中国西南野生生物种质资源库植物种质资源与基因组学研究中心高立志研究员课题组历时六年,对拟南芥、水稻、玉米、高粱、杨树和大豆六个植物基因组的全基因组重复现象进行详尽的分析,深入研究了基因的诸多生物学特征对基因保留和丢失偏好性的影响,发现基因的进化速率、结构复杂性与GC含量对基因保留具有显著的影响,进一步的分析表明:
(1) 基因的特征在一定程度上决定了全基因组重复发生后保留的重复基因倾向于通过哪一种机制留存在基因组中;
(2) 结构复杂的基因发生亚功能化的几率最高;
(3) 低进化速率的基因往往受到剂量平衡效应的影响;
(4) 而高GC含量的基因更倾向发生新功能化;
该研究第一次在多达六个有花植物基因组中对全基因组重复现象进行了比较分析,通过详细的统计学分析发现了决定基因保留或丢失的一些普遍性机制。研究结果不仅有助于目前全基因组重复后重复基因进化命运的诸多进化模型争议的解决,对进一步的研究提供了重要启示,即基因本身的特征对其进化命运具有显著的影响。
该成果在线发表于植物学领域著名学术刊物美国《植物生理学报》(Plant Physiology),"Prevalent role of gene features in determining evolutionary fates of WGD duplicated genes in flowering plants" 。
参考文献
Badouin, H., Gouzy, J., Grassa, C.J., Murat, F., Staton, S.E., Cottret, L., Lelandais-Briere, C., Owens, G.L., Carrere, S., Mayjonade, B., et al. (2017). The sunflower genome provides insights into oil metabolism, flowering and Asterid evolution. Nature 546, 148-152.
Daccord, N., Celton, J.M., Linsmith, G., Becker, C., Choisne, N., Schijlen, E., van de Geest, H., Bianco, L., Micheletti, D., Velasco, R., et al. (2017). High-quality de novo assembly of the apple genome and methylome dynamics of early fruit development. Nat Genet 49, 1099-1106.
Guo, L., Winzer, T., Yang, X., Li, Y., Ning, Z., He, Z., Teodor, R., Lu, Y., Bowser, T.A., Graham, I.A., et al. (2018). The opium poppy genome and morphinan production. Science 362, 343-347.Jiao, Y. (2018). Double the Genome, Double the Fun: Genome Duplications in Angiosperms. Mol Plant 11, 357-358.
Jiao, Y., Wickett, N.J., Ayyampalayam, S., Chanderbali, A.S., Landherr, L., Ralph, P.E., Tomsho, L.P., Hu, Y., Liang, H., Soltis, P.S., et al. (2011). Ancestral polyploidy in seed plants and angiosperms. Nature 473, 97-100.
Qin, C., Yu, C., Shen, Y., Fang, X., Chen, L., Min, J., Cheng, J., Zhao, S., Xu, M., Luo, Y., et al. (2014). Whole-genome sequencing of cultivated and wild peppers provides insights into Capsicum domestication and specialization. Proc Natl Acad Sci U S A 111, 5135-5140.
Tang, H., Wang, X., Bowers, J.E., Ming, R., Alam, M., and Paterson, A.H. (2008). Unraveling ancient hexaploidy through multiply-aligned angiosperm gene maps. Genome Res 18, 1944-1954.
Wu, S., Han, B., and Jiao, Y. (2020). Genetic Contribution of Paleopolyploidy to Adaptive Evolution in Angiosperms. Mol Plant 13, 59-71.
Wu S, Han B, Jiao Y. Genetic contribution of paleopolyploidy to adaptive evolution in angiosperms[J]. Molecular Plant, 2019.
Ren R, Wang H, Guo C, et al. Widespread whole genome duplications contribute to genome complexity and species diversity in angiosperms[J]. Molecular plant, 2018, 11(3): 414-428.
Jiao Y. Double the genome, double the fun: genome duplications in angiosperms[J]. Molecular plant, 2018, 11(3): 357-358.
Van de Peer Y, Mizrachi E, Marchal K. The evolutionary significance of polyploidy[J]. Nature Reviews Genetics, 2017, 18(7): 411.
参考链接:
https://www.jianshu.com/p/e5f0f9faf155
https://zhuanlan.zhihu.com/p/90664781
https://www.omicsclass.com/question/213