原文链接 PMCID:PMC6576129 DOI:10.1073/pnas.1819657116
前言
青藏高原是世界上海拔最高、面积最大的高原,平均海拔4500米。由于低氧、低温和强紫外线等恶劣的环境条件,生活在高海拔环境中的物种面临着巨大的选择压力。 这种严酷的高海拔环境导致了人类、哺乳动物和鸟类的类似表型适应性进化,例如,耐低氧、耐寒、代谢能力增强和体重增加等。高海拔环境的选择压力会驱动生物体表型和遗传的适应。
该研究团队早期的研究表明不同高海拔物种在形态、生理、生化等表型特征出现趋同,而这种趋同表型的遗传适应机制是多样的,可能受到系统发育背景的严重影响 (Zhu et al. 2018. PNAS)。 同时,由于野生鸟类采样困难且转录组测序样品质量要求较高,早期高海拔适应遗传机制的研究多集中在基因序列水平,而以多物种多组织转录调控水平的研究几乎空白(Hao et al. 2019. Current Genomics)。
作者在同一个系统发育背景下,选择3种来自青藏高原的高海拔雀形目鸟类——褐冠山雀、黑冠山雀、棕额长尾山雀和其各自近缘的低海拔物种——沼泽山雀、黄腹山雀、红头长尾山雀进行了比较转录组学分析。
材料与方法
(1)取样
提取这6种山雀的5个组织的128个样本进行了测序,这个5种组织包括心肌、飞行肌、肝脏、肺和肾脏。周所周知,这5种组织对代谢性能和氧的利用至关重要。
(2)转录组测序及生信分析
①转录组组装
Trinity,CD-hit,BUSCO,RSEM
②同源鉴定、注释、系统发育分析
RAxML
③序列水平上的趋同性
PAML
④基因表达分析
DESeq2,edgeR,ROTS,limma WGCNA
⑤蛋白编码基因的进化速率
结论与讨论
(1)deNovo转录本组装与质量评估
质控之后得到的clean data用于转录组组装。6个物种的contig ExN50值分布相似,对应的转录本数量在27,581 ~ 36,505之间。每个样本再与自己已经组装好的转录组进行比对,128个样本的比对率从78.75% ~ 90.81%不等。BUSCO评估转录组的完整性,6个转录本都在89%~90%之间。由此可见组装结果还算可以。
(2)同源鉴定、注释和系统发育分析
鉴定出了7915个直系同源基因。这是注释所用到的数据库,99%以上的直系同源基因都能比对上NR库、swiss-prot、interpro库。
作者以斑胸草雀作为外群,基于6种山雀和斑胸草雀基因序列的四倍兼并位点(4D)位点,构建了一颗ML树。这6个物种聚集成3个支持良好的高海拔和低海拔对。并且这颗树的拓扑结构与以前基于较少核标记和线粒体标记的系统发育相一致,证实了高海拔和低海拔对是密切相关的。
(3)高海拔适应过程中编码序列的变化
使用PAML的分枝位点模型来鉴定正选择基因,获得了3个高海拔物种的379个正选基因。其中321个基因在3个高海拔物种中的任意2个间共享,218个基因在3个高海拔物种间共享。随后进一步来探索这3个高海拔物种中共有的氨基酸替代模型。作者在3个高海拔物种中的任意2个中鉴定出280个具有共同氨基酸取代的趋同的基因。在这些基因中,发现了99个适应性趋同基因,它们不仅受到了正向选择,都经历了非随机的趋同变化。其中,只有4个基因CYP2R1、L2HGDH、HN1L和IFNAR2在3个高海拔物种中有共同的氨基酸替代。CYP2R1参与心肌细胞增殖和肥大,L2HGDH参与电子传递和糖酵解,HN1L影响左心室收缩功能,IFNAR2参与血管生成。通过对3个高海拔物种的编码序列变化进行检测,我们发现,受到正选择的基因更有可能发生趋同。
(4)组织和物种间基因表达谱
一般来说,在不同物种的多个组织中,可以观察到组织特异性表达和物种特异性表达两种模式。组织特异性表达模式表明,不同物种间同一组织的基因表达应该比同一物种内不同组织的基因表达更为相似。物种特异性表达模式表明,同一物种内不同组织的基因表达应该比物种间相同组织的基因表达更为相似。作者采用层次聚类的表达谱分析方法研究了不同组织间的基因表达模式。
来自不同物种的相同组织样本聚集在一起,显示出一种普遍的组织特异性表达模式。主成分分析(PCA)也揭示了组织特异性的表达模式:所有的6个物种的样本按组织聚类。结果表明,组织间的差异比物种间的差异更显著,说明组织分化可能先于物种分化。一个例外是,飞行肌和心肌的样本在每个物种中都聚集在一起,呈现出物种特异性表达的模式,这表明肌肉组织(如心肌和飞行肌)可能有类似的表达谱。
(5)高海拔环境下的基因表达变化
为了检测在高海拔环境下的基因表达变化,作者结合了4个差异表达软件的分析结果,在3对高海拔和低海拔物种之间分别进行了鉴定。
所有差异表达基因集的表达谱呈现出高海拔山雀和低海拔山雀相分离的不同的表达模式,这与所有基因的表达谱(如组织特异性表达)不同,表明3种高海拔山雀的表达谱发生了相似的改变。
为了对网络层次上相互作用的基因群进行分类,我们使用加权基因共表达网络分析(WGCNA)来确定模块。利用每个模块的第一主成分基因表达量对模块表达量进行总结,并根据样本的海拔进行回归。
我们认为与海拔相关的模块中的基因是与海拔相关的基因。
这些海拔相关基因的表达谱显示,肌肉组织(心肌和飞行肌)与其他组织不同,心肌和飞行肌样本为一个分支,其余组织(肝、肺和肾)为另一个分支(图2D)。在每一组中,高海拔山雀和低海拔山雀是分开的。这些结果提示,随着高原环境的变化,肌肉组织和其他组织可能有不同的调节变化。这些结果表明,肌肉组织和其他组织在高海拔环境下可能有不同的调节变化。
下面这幅图是每个组织的每个模块中的差异表达基因(DEGs)的相对数量。黑色条表示与高度相关的模块,灰色条表示所有其他模块。右边的P值表示海拔相关模块和非海拔相关模块之间DEGs相对数量的差异。有趣的是,作者发现与海拔相关的模块中差异表达基因的比例明显高于其他模块,说明高海拔环境促进了表达变化。随后,作者测试了模块表达和表型性状之间的相关性。大部分与海拔相关的模块与体长和跗关节长度显著相关,表明这些模块中的基因可能参与了这些表型变化。先前一项关于功能性状的研究显示了类似的表型变化,这表明:高海拔物种通常具有较大的体型以增加抗寒能力,并且具有较长的跗关节增强在高海拔环境中的运动和觅食的能力。
(6)进化率与海拔高度间接相关
dN/dS表示蛋白编码基因的进化速度。我们发现差异表达基因与非差异表达基因之间的dN/dS比值无差异,海拔相关基因与非海拔相关基因之间的dN/dS比值无差异。与海拔相关的基因的表达和基因的连通性与dN/dS(即进化速率)呈显著的相关性。这些结果表明,基因进化速率与基因表达和连通性有关;基因进化速率通过基因表达和基因的连通性与海拔的相互作用,进而与海拔间接相关。这提示着我们蛋白编码序列的改变和基因表达的改变可能在3种高海拔山雀中存在协同作用。
小结
【序列比较分析】3种高海拔物种在正选择基因上表现出高度相似性(218个共享的正选择基因 ),而氨基酸替代上的相似性极低(3种高海拔物种只有4个基因中包含相同的氨基酸替代位点),暗示了高海拔适应性趋同主要表现在正选择基因水平而非氨基酸替代水平。
【基因表达比较分析】整个基因集的表达谱呈现出组织特异的表达模式(所有物种样品按照组织聚类);而差异表达基因集和海拔相关的基因集的表达谱则呈现出海拔相关的聚类模式,暗示了高海拔环境可能驱动了高海拔物种相似的表达改变。
【进化速率】此外,还发现3种高海拔物种筛选到的正选择基因与差异表达基因存在非常低的共享率(2.3%,218个正选择基因中5个基因差异表达),而基因表达、基因连通性及二者和海拔的交互作用与基因的进化速率显著相关。
以上结果揭示了3种高海拔鸟类可能以序列和表达水平协同改变的方式实现其适应性进化。