An enormous Paris polyphylla genome sheds light on genome size evolution and polyphyllin biogenesis
——宽瓣重楼巨型基因组揭示基因组大小进化和重楼皂苷合成
原文链接:https://www.biorxiv.org/content/10.1101/2020.06.01.126920v1
本文由中国科学院西双版纳植物园等单位于2020.06发表于bioRxiv,本文亮点在于组装物种“宽瓣重楼”属迄今为止最大的基因组:82.55Gb。
背景介绍
宽瓣重楼(Paris polyphylla var. yunnanensis)是黑药花科重楼属的变种,宽瓣重楼是一味传统中药材,其特有的生物活性成分重楼皂苷具有止血、镇痛、消肿、抗感染功效,收录在《中国药典》,我国有40多种以宽瓣重楼根茎为原料的商品药。
宽瓣重楼株高不超过1米,基因组大小却有82.55G左右,是人类基因组的27倍。黑药花科植物基因组大小变化范围达230倍,是研究基因组大小变化的理想模型,破译宽瓣重楼基因组对研究基因组大小进化以及重楼皂苷生物合成通路具有重要意义。
该研究完成了迄今为止最大的基因组组装,揭示了宽瓣重楼巨型基因组形成的原因,鉴定到一批与重楼皂苷生物合成通路相关的候选基因。
材料方法
本文用到的主要测序技术——组装部分:BGISEQ-500 (10.25T,124X),10xGenomics(1.79T,21X);辅助注释:PB三代全长转录组(55.23G);其他部分:二代RNA-seq,代谢物含量。
结果部分
1、基因组组装和注释结果
Survey结果显示基因组大小为82.55G(流式结果为53.61G),SOAPdenovo2进行基因组组装,从头组装出70.18G大小的宽瓣重楼基因组草图,这是迄今为止最大的基因组组装;相比已发表的欧非肋突螈(19.38G,Scaffold N50 1.14Kb)和欧洲云杉(19.6G,Scaffold N50 4.87Kb),宽瓣重楼组装有显著提升,Scaffold N50达到21.56Kb; 预测34,257个基因,BUSCO评估完整性89.6%。
2、基因家族分析
11个物种构建系统进化树;3038个基因家族发生了扩张,3636个基因家族发生了收缩,扩张基因参与萜类生物合成和植物病原互作,可能参与皂苷合成及生物非生物胁迫反应。PSMC分析显示,宽瓣重楼有效群体大小可能在10万年到1万年前急剧下降到底部,与这段时间海平面(蓝)和地表温度(黄)的上升相一致(图d,国家气候数据中心http://www.ncdc.noaa.gov/)。环境变化可能是影响重楼有效种群数量的重要因素。
3、基因组扩张及种群历史
Ks分析没有检测到WGD事件,说明WGD可能和基因组大小无关;重复序列比例69.53%,57.86G,其中 62.50% 是长末端重复(LTR)转座元件,可能与基因组大小有关;总结了90个重要系统进化地位的基因组大小、TEs和LTRs的百分比,结果表明,除被子植物中黑药花科的重楼属和延龄草属外,大部分巨大的基因组属于裸子植物;几乎所有的大基因组(>5G)都含有较高比例的TEs和LTR,比如银杏、挪威云杉等;在普通基因组(<5G)中,TEs的比例分布没有偏向性,与基因组大小无关,例如,美洲藜(1.58G基因组)和玉米(2.5G基因组)中的TEs含量分别高达77.20%和69.06%。
4、 LTR进化
Ty3 / Gypsy超家族(45.69%)最丰富,Ty1 / Copia丰富(9.99%)次之;选择银杏、玉米、水稻和拟南芥,使用逆转录酶基因的结构域构建Ty3/ Gypsy和Ty1/ Copia系统进化树。 Ty3 /Gypsy可以分为三个进化枝,每个进化枝包含银杏,表明重楼基因组的Ty3/ Gypsy可能是从古老的裸子植物进化而来。发现重楼3个Ty3/ Gypsy进化枝显著扩张,其插入时间显示两次爆发时间(2.2MYA和10.5-11.3MYA),表明所有Ty3/ Gypsy亚型都经历两次扩张(图b)Ty1/Copia分成5枝,4枝是重楼特有的,1枝是5个物种共有的。
5、 重楼皂苷生物合成
两种重楼皂苷:薯蓣皂甙元和偏诺皂苷元(重楼特有);营养期、开花期、结果期和休眠期的根茎、叶、茎、花和果实HPLC检测重楼皂苷,检测到5种皂苷,其中薯蓣皂甙元衍生物占90%,薯蓣皂甙元之前证实是CYP450酶和UGT参与合成。转录组结果进行WGCNA,共鉴定到259个CYP450基因,其中8个已被证实参与薯蓣皂甙元合成,110个在相同模块中(M35),显著富集在类固醇生物合成通路,构建共表达网络( P450红色,UGT绿色),和重楼皂苷浓度相关(p<0.01,b黄色)。
本文基因组大是个极大的亮点,可惜的是没有使用三代技术测序组装,如果加上三代效果一定会好。另外可能是由于基因组太大,也没有使用Hi-C挂载至染色体。待到文章正式发表时再看杂志及影响因子。
植物基因组除了比较基因组分析里的常规分析,还可做一些个性化分析。进化地位,如无油樟;开花特性,花发育的MADSbox基因花香花色等;基因组特征:倍性、重复序列、复制事件;环境适应性:抗逆、高原和极地、共生和寄生;特殊刺激代谢产物等等。
资源来源于网络,侵删。