Abstract
小麦产生许多对它们的发育和生长很重要的代谢物。然而,小麦代谢组的遗传结构尚未得到很好的研究。在这里,利用高密度遗传图谱,我们通过广泛的靶向LC-MS/MS对麦粒代谢进行了一项全面的代谢组研究。进一步结合农艺性状,分析代谢产物与农艺性状的遗传关系。共检测到1260个代谢特征。通过连锁分析,发现1005个代谢数量性状位点(mQTLs)在基因组中分布不均。24个候选基因被发现调节不同代谢物的水平,其中2个通过体外分析被功能注释,参与类黄酮的合成和修饰。将代谢物农艺性状的相关分析与mQTL和表型QTL的共定位相结合,揭示了代谢物与农艺性状的遗传关系。例如,利用相关和共定位分析确定了一个可能控制植物生长素积累的候选基因,从而影响每穗粒数(NGPS)。此外,代谢组学数据被用于预测小麦农艺性状的表现,发现代谢物为NGPS和株高提供了很强的预测能力。本研究利用代谢组学和关联分析来更好地了解小麦代谢的遗传基础,这将最终有助于小麦育种。
Introduction
- 植物富含在其生命周期中发挥重要作用的特定代谢物,并在其生活的复杂环境中调节其相互作用。代谢组学旨在对生物样品中的所有代谢物进行定性和定量分析;然而,目前的方法远远达不到这一目标。也就是说,将代谢组学与基因组学和转录组学相结合,已证明在分析代谢多样性及其潜在遗传变异,以及识别众多新基因和代谢途径方面具有强大的作用。例如,通过连锁分析在拟南芥、番茄、玉米和水稻中检测到数百个代谢数量性状位点,随着大量结构和调控基因的鉴定,它们参与了作物代谢产物丰度的调控。利用mQTL分析,可以更好地了解植物的复杂代谢途径,在了解拟南芥中硫代葡萄糖苷和水稻中黄酮的生物合成方面取得了相当大的进展。
- 代谢组学方法已广泛应用于许多作物。最新报告研究了135个冬小麦品系的76种代谢物,允许进行基因组关联研究(GWAS),并从代谢物性状和相关单核苷酸多态性(snp)的相关性中揭示了6种不同的mQTL。迄今为止,小麦中最大规模的分析是Hill等人报道的(2015年),他分析了558个代谢物和10个农艺性状QTL,以研究代谢物水平与农艺性状之间的遗传关系。
- 自孟德尔时代以来,解决小麦表型性状的遗传基础一直是植物科学的一个重要目标。许多基因已经被克隆,并通过连锁和关联分析进行功能验证;但是,一般来说,定义最终表型的机制尚未阐明。植物代谢组常被认为是基因组和表型之间的桥梁,因为从广义上讲,代谢组定义了表型,并且它与定量遗传分析的结合极大地帮助了研究者推断遗传联系植物代谢与表型变异之间的关系。因此,代谢物可以作为生物标记物来预测复杂的农艺性状,从而可以加快育种进程,同时降低成本。
- 在目前的研究中,我们共分析了1260种代谢物特征,其中我们能够使用广泛针对性的LC-MS/MS方法对467种代谢物进行结构注释。随后,我们结合最新的小麦基因组注释(https://www.wheatgome.org/),基于小麦660K高密度SNP图谱定位了1005个高分辨率mQTLs。在此分析的基础上,我们确定了18个候选基因,并通过体外表达研究验证了其中的两个。此外,还研究了mQTLs与一系列表型QTL(pQTL)的关系,揭示了利用代谢数据预测农艺性状的可能性。因此,这项研究大大提高了我们对小麦代谢组学及其与农艺性状关系的认识,为作物改良提供了有力的工具。
Result
代谢普分析和广义遗传力
- 以两个优良小麦品种垦农9204(KN9204)和京411(J411)为材料,对145个重组自交系(RILs)的成熟籽粒进行了取样研究。亲本系在籽粒性状和穗部性状上差异很大,目的是确定影响农艺性状的主要基因。使用高通量LC-MS/MS方法(之前已确定具有广泛的靶向性),我们从具有三个生物复制物的自交系成熟籽粒提取物中检测并量化了总计1260个不同的代谢物特征(表S1和S2)。在这些代谢特征中,116个是通过直接比较色谱和片段行为与真实标准的结构来确定的,而351个是通过使用之前描述的策略来推测的。大多数被注释的化合物是黄酮、酚胺、多酚、脂类、维生素、植物激素及其衍生物、氨基酸及其衍生物、核酸以及它们的衍生物,有机酸和糖。因此,我们实现了多个重要代谢途径的覆盖(图1a和表S1)
- 代谢物的积累水平在不同的株系之间有很大的差异,这使得对它们的遗传结构进行有效的分析成为可能。在整个RIL群体中,这些代谢物的平均遗传变异系数(CV)为47.4%(图1b)。然而,含有酚胺和多酚的化合物类别之间存在着相当大的差异,最大平均变异系数为59.8%,精胺为13.6%,N',N''-二-p-coumaroyl精胺为194.5%(表S3)。代谢性状广义遗传力(H2)的分布表明,56%以上的代谢产物的遗传力大于0.6(图1b)。一般而言,在注释代谢物中,次生代谢物的H2(平均值为0.63)高于原生代谢物(平均值为0.58),黄酮类化合物的遗传力最高(H2>0.70)(表S3)。因此,这些数据表明代谢物多样性主要受遗传因素的影响。
-
代谢物分析可以阐明代谢途径之间的联系。因此,使用Spearman相关分析这些代谢物相关性,并为所有检测到的代谢物构建热图。这显示了比负相关(蓝色)更多的正相关(红色),以及一些紧密相关的代谢物簇(图1c)。例如,左上角的彩盒主要由氨基酸及其衍生物、核酸及其衍生物和酚酰胺组成。底部的紫色和蓝色方框分别表示脂类和植物激素及其衍生物之间的高度正相关(图1c)。这些密切相关的代谢物很可能是同一类型的分子或属于同一生化途径的分子。图S1所示的相关系数证实了这一现象。大多数氨基酸和核酸存在于一个紧密的代谢物簇中,而黄酮类化合物相对分散,尽管它们之间的关系比其他物质更密切(图S1)。脂质、多酚和酚胺在几个大的簇中被发现,表明这些代谢物参与多种代谢途径并可能发挥不同的生理作用。
使用高密度SNP映射的成熟籽粒的mQTL映射
- 使用Affymetrix Wheat660K SNP阵列作为探针,对本研究中使用的RIL群体进行了精细定位。基于这张高密度图,746种代谢物(共1260种代谢物)中的1005 mQTL可从RIL群体的三个环境中重复绘制[比值对数(LOD)≥2.5]。其中,约有一半的QTL(493)集中在B基因组上(图S2a),类黄酮相关QTL(61)的数量最高,其次是氨基酸、核酸及其衍生物(图S2b)。
- 卡方检验显示所有mqtl(共1005 mqtl)在基因组中的随机分布(X2=207.1,P值<2.2e-16;表S5)。值得注意的是,我们在基因组中观察到68个热点,主要位于1B、4B和7A染色体上,尤其是1B染色体(图2a)。mQTL显著富集的热点区域可能具有影响多代谢性状的主要调控基因。黄酮类和酚胺类相关热点分别位于1B和4B,而5个脂代谢相关qtl共定位于7A:240.0-240.8cm(图2b)。另一方面,在一些染色体上检测到的mQTLs的数量,如染色体3A和4D,明显低于预期(图2a和表S5)。
- 对于每种代谢物,mqtl的数量从1到6不等,其中201种代谢物具有至少两个mqtl(表S4)。然而,一些代谢物受到单一主要mQTLs的影响(表S4)。例如,一个n16920水平的QTL(一种被认为是羟基肉桂酰甘油酸的多酚)被定位在染色体2A上735.0-735.1 Mb(LOD=15.3)之间,它解释了33.4%的表型变异;mr1093(tricin O-丙二酰己糖苷)的另一个QTL定位在2B染色体665.2-666.4mb之间(LOD = 11.9),解释了31.2%的表型变异(表S4)。这些结果表明,代谢产物的合成与单个基因而不是上位性相互作用有关。
-
每个mQTL解释了观察到的表型变异的0.8%到53.1%,平均值为13.3%,263个位点与超过15%的表型变异相关(图S3a和表S4)。。其中,次生代谢物qtl(平均PVE为14.0%)的表型变异解释(PVE)一般大于原生代谢物(平均PVE为11.9%)(图S3b)。不同的PVE在一定程度上反映了初级代谢(核心代谢)和次级代谢的不同遗传结构。表S4中mQTL的完整列表代表了进一步功能验证和随后在面向特征研究中应用的重要资源。
mQTLs候选基因的鉴定
- mQTLs的高分辨率促进了代谢物候选基因的分配。我们通过整合化合物的结构、已知的生物合成途径和小麦基因组注释筛选了一系列候选基因(表1和表S4)。在附近,TracesCS5D01G02100编码一个假定的氨基酸透性酶家族蛋白,由于其与功能注释的拟南芥和水稻基因ATPUT2和OsPAR1(分别在氨基酸水平上的70%和87%同一性)的高相似性而被指定为候选者;此外,多个黄酮类化合物被定位到一个位点(1A号染色体上588.7-593.5 Mb;表S4),两个基因在区间‒TraesCS1A01G442200和TraesCS1A01G442300-共享高一致性(氨基酸水平上70%和78%的同一性)编码OsF3'H基因的水稻类黄酮3'-羟化酶。从列表中选择另外两个候选基因,并通过体外表达分析进行验证,如下所述:
- mr1092(芹菜素7-O-芸香苷)的mQTL被映射到2B染色体上5.6-7.2mb的区间(图3a)。在这个区域,一个基因被注释为一个假定的糖基转移酶-TraesCS2B01G012000-编码蛋白与水稻UGT706D1的同源性为49.1%(图S4)。编码序列在35S启动子的控制下从中国春(CS)克隆到StrepII标记的载体中,并在N.benthamiana中表达(图3c)。将芹菜素和麦黄酮与UDP葡萄糖和纯化的蛋白质一起作为共基质进行测试,结果表明它接受芹菜素,但不接受麦黄酮(图3d)。测试了更多的基质,结果见表S6。该蛋白以UGT88C13(由UGT委员会)的名义注册。当我们从两个亲本系中克隆这个目标基因时,我们注意到从J411变种中扩增它的困难。使用了几对引物,仅从KN9204和CS株系得阳性结果(图S5)。因此,很有可能在J411中发生了相当大的序列变化,或者在J411的进化或驯化过程中基因丢失。从N.benthamiana表达、提取和纯化KN9204(命名为UGT88C14)的翻译蛋白(图3c),并显示出类似的编码序列和CS的蛋白质活性(表S6,图S6)。他的结果证明了候选基因的葡萄糖基转移酶活性,从而解释了RIL群体中糖基芹菜素的变异积累。
- 类似地,另一个类黄酮相关基因通过mQTL mr075(3',4',5'-三氯西汀O-芸香苷)靶向,仅发现三个基因位于间隔内。其中一个基因TraesCS2B01G459900被注释为糖基转移酶,类似于水稻UGT706C1(氨基酸水平上52.1%的同源性)。因此,我们从CS克隆了这个基因。尽管检测到活性(图S7a,b),我们注意到两个亲本具有相同的编码序列。因此,采用qRT-PCR法检测其相对表达水平。结果表明,目标基因在J411中的相对表达大约是灌浆第二周收获组织中KN9204表达的10倍(图S7c)。这一观察结果与J411中的糖基化产物比KN9204中的高水平积累是一致的。
农艺性状与代谢物的相关性
Discussion
- 代谢组学和基因组学方法的结合被广泛应用于确定代谢多样性的遗传基础。然而,到目前为止,大多数研究只关注拟南芥、番茄、水稻和玉米。然而,小麦组学工具箱开发的最新进展为深入了解小麦的代谢多样性铺平了道路。在这项研究中,代谢组学与RIL群体的高分辨率基因分型相结合,分析基因代谢物和代谢物农艺性状的相关性。
代谢组和mQTLs
- 代谢产物的检测是研究其遗传变异的基础。本研究采用大靶向LC-MS/MS共获得1260个代谢产物,鉴定了467个代谢产物的化学结构。与之前的小麦代谢组学研究相比,本研究中获得的结果在检测代谢物方面具有相当大的进步。这里包括了重要的化合物类别,如多酚和类黄酮,它们在植物生物/非生物胁迫中是必不可少的,对人类健康有多种影响。初级代谢物通常表现出很强的相关性,如氨基酸、核酸、植物激素和脂质(图1c和图S1)。这与之前对水稻、小麦和番茄的研究一致。同时,还发现了代谢物相关性,其中一些表现出很强的相关性,如酚胺和类黄酮(图1c和图S1)。代谢产物之间的相关性分析不仅反映了已知分子之间的相互关系,而且也反映了未知分子与已知分子之间的相互关系,为今后识别未知代谢产物和途径提供了重要的资源。
- 基于基于小麦660K高密度遗传图谱的连锁分析,发现1005 mQTL随机分布在小麦基因组中(图2和表S4)。其中,有许多高分辨率mqtl被报道。此外,我们还观察到mQTL的出现与许多不同的代谢物水平有关,并从籽粒中鉴定出68个热点,其中大多数在染色体4B和1B上发现(图2)。这些热点也在之前对拟南芥、水稻、番茄和玉米的研究中发现,表明这一现象是普遍和重要的。这些发现表明,许多代谢物可能受到小基因组区域操纵的影响,这表明通过繁殖来控制新陈代谢是切实可行的。
候选基因与途径分析
与早期研究相比,本研究的一个重要优势是,六倍体小麦基因组的可用性允许直接从QTL定位中识别候选基因。在本研究中,根据模式植物物种中相应基因的注释和研究,共分配了24个候选基因(表1和表S4)。来自mQTL定位的两个候选基因通过重组蛋白活性分析或mRNA表达分析得到验证(图3和图S7)。对于第一个候选者,该蛋白被证实是一个UDP糖基转移酶(UGT),它可以糖基化类黄酮a和B环的不同氧原子位置。根据我们的酶促试验(表S6),该UGT接受芹菜素、木犀草素、山奈酚和槲皮素,但不接受B环甲基化的黄酮类化合物;它更喜欢在4'-OH以上添加葡萄糖的位置7-OH。这种多位置糖基化现象以前在水稻中观察到。然而,彭等人研究显示了主要的位置特异性糖基化,包括两种主要的黄酮UGT负责水稻黄酮的7-OH和5-OH基团的糖基化(分别为OsUGT706D1和OsUGT707A2)。我们建立了一个系统发育树,其中包括我们已证实的TaUGTs和其他已知的UGT,用于对其进行分类。结果表明,TaUGTs被划分为UGT88C亚组,该亚组未得到很好的识别(图S6)。根据我们的结果,这个亚群可能主要在黄烷醇7-O-葡萄糖基转移酶中起作用,并且不同时排除糖基化的5-OH和3'-OH基团,这取决于环的修饰。与第一个候选基因不同,第二个验证基因TraesCS2B01G459900编码UGT706E7(由UGT委员会提供),在籽粒灌浆期间通过表达水平改变相应代谢物积累的过程中发挥了作用(图S7)。纯化后的蛋白对底物3',4',5'-O-三甲基三甲西汀和UDP葡萄糖的糖基供体有活性(图S7b),而对底物大黄酚的活性较小,表明该蛋白优先选择所有3',4',5'-位甲基化类黄酮。
- 候选列表中的基因与多种代谢途径相关,包括类黄酮、酚酰胺和氨基酸(表1和S4)。类黄酮在代谢产物分类中占最大比例。小麦黄酮和黄酮醇相关代谢途径的推定的网络如图S9所示。所分配的基因要么在我们的结果中被描述(红色),要么他们的同系物先前被报道(蓝色)。例如,由mr1120和mr1112(表S4)map的TraesCS1D01G020700具有相当大的PVE,并且距离置信区间大约300 kb。它在水稻中的同系物(LOC_Os02g28170),编码OsMAT-2,通过重组蛋白分析被证实是黄酮类丙二酰转移酶。其在玉米中的对应同系物(GRMZM28387394)编码AAT1,是第一个在单子叶植物中具有特征的花青素酰基转移酶,通过突变表型进行分析。基于这些发现,TraesCS1D01G020700基因被分配。这些基因在普通小麦中还没有报道,但是还需要进一步的证据来验证它们的功能。候选列表中的其他基因也是如此(表S4)
- 本研究中mQTLs的大规模和高分辨率特性得益于所用代谢组方法的高覆盖率、敏感性和准确性以及SNP标记的高密度。在未来的研究中,本研究所鉴定的数百个位点将得到进一步的验证和鉴定,这将有助于剖析小麦代谢变异的分子基础,阐明普通小麦中新的功能蛋白和代谢途径。
代谢性状与农艺性状的关系
- 代谢物被认为是连接基因组和表型的桥梁。因此,对表型和代谢相关特性的研究极大地反映了这一桥梁的价值(Luo,2015)。在马铃薯的QTL分析中,Carreno Quintero等人(2012)发现代谢物与淀粉和冷甜味剂的相关特性是共存的。Chen等人(2016)证明了胡卢巴碱通过延长G2期和整个细胞周期的持续时间而对晶粒宽度产生积极影响。进一步的研究表明,分析代谢物农艺性状有助于推断玉米和番茄的遗传联系。在本研究中,mQTL分析显示wm0034(4-吲哚卡醛)和mr1346(色氨酸)是共域的,它们都存在于色氨酸途径中,参与生长素的生物合成。通过网络分析(图4a),发现NGPS与这两种代谢物显著相关(P<0.01)。此外,在pQTL分析中,与NGPS相对应的位点被发现与上述4B染色体上的mQTL同域化(图4c)。在这个共聚焦区域,在小麦基因组注释中发现了生长素抑制/休眠相关蛋白的编码序列‒TraesCS4B01G155000,Chr4B:27.6mb‒。先前的研究表明,蛋白质具有抑制生长素积累的作用。例如,Reddy和Poovaiah(1990)表明,生长素抑制基因SAR5的高转录丰度与草莓果实生长停止相关,或者BrARP1(编码生长素抑制蛋白1)或BrDRM1(编码休眠相关蛋白1)的过度表达导致较小的植株和较短的角果。因此,该候选者可以通过负调控生长素水平和NGPS来干扰植株的产量。代谢物的变化是否是农艺性状变化的原因,还需要进一步的实验证据和相应的分析。
农艺性状预测
- 在分子育种中基因组选择比传统的分子标记辅助选择更有效。随着高通量测序以及转录组和代谢组技术的发展,多组分数据被用于预测复杂的农艺性状,作物研究取得了巨大进展(Wang等人,2016;Xu等人,2017;Kremling等人,2018)。在这项研究中,我们使用BLUP和LASSO方法证明产量相关性状(PH和NGPS)的可预测性分别达到0.56和0.51(图5)。这一结果与之前的研究(包括Riedelsheimer等人)具有可比性。Xu等人(2016)使用210个RIL的1000个代谢组特征数据,使用BLUP和LASSO有效预测千粒重和其他性状,千粒重的平均可预测性为0.55。
- LASSO型能够有效地筛选出1000多种代谢物,并选择在表型预测中起主要作用的代谢物,如本研究所示。为了比较使用代谢数据和基因型数据进行预测,使用基因型数据进行相同的预测(图S10)。使用LASSO,发现代谢特征对NGPS和PH值的预测值(0.51和0.46;图5)高于使用基因型数据的预测值(0.47和0.44;图S10)。然而,这些值在BLUP模型下被逆转,这与Xu等人报告的发现相关。当代谢物的数量增加到数千或数万,或与其他组学数据(如转录组和基因组数据)结合时,预测能力应该得到提高。因此,我们假设这些高效的代谢物特性在生物标记辅助育种中是重要的,并且可以通过提供早期世代选择来加速植物育种。