2021年2月,来自美国、荷兰、中国、挪威的多国研究团队在《Current Opinion in Biotechnology》发表综述,回顾了从宏基因组学的应用中收集到的关于微生物生命的新见解,以及促进探索复杂微生物群落多样性和功能的广泛分析工具。
从基因到生态系统功能的旅程
宏基因组学(Metagenomics),即对微生物组合中的DNA进行直接测序和分析,已迅速成为确定微生物群落功能潜力的一种常规方法。在其最直接的应用中,DNA被提取,制备成库,并在短读(Illumina,Roche 454,Ion Torrent)或长读(PacBio,Oxford Nanopore)平台上进行测序。
所有的宏基因组学分析都是从序列读取的质量控制开始的,其早期的应用主要依赖于以基因为中心的方法来量化目标基因的相对丰度及其在宏基因组中的功能,这需要基因检测和对reads进行注释。这些发展立即增加了数据库中基因簇的数量,并激发了人们对宏基因组学应用的更大兴趣。各种工具使这种分析成为可能(表1和表2);然而,环境微生物组中近50%的基因缺乏注释功能。这与微生物分离基因组中三分之一的蛋白编码基因没有注释的事实相平行。因此,我们识别功能基因的能力与基因数据库的完整性和我们对基因功能知识的改进密切相关。
以基因为中心的宏基因组分析可以通过独立的工具或基于web的应用程序进行。Web服务器(表3)提供了一个用户友好的分析平台,所有经验级别的研究人员都可以访问该平台,但它们仅限于较小的数据量,提供分析工具选择列表的结果,完成分析的时间取决于服务器负载。
从以基因为中心的宏基因组学收集到的信息,有时与宏转录组和宏蛋白组相结合,可以更好地了解生态系统中制约生物地球化学循环的微生物过程。除了高度复杂多样的土壤和沉积物微生物组外,以基因为中心的自然和工程环境分析扩展了我们对基本微生物过程的知识,例如灰尘微生物组、经处理的污水中的人畜共患原生生物多样性模式、植物组织(根、茎和叶)内部或表面的微生物等。
回到细胞:从宏基因组中恢复基因组
随着每个样本的测序深度增加,从复杂群落的宏基因组中恢复基因组成为可能。测序深度足够大,覆盖率高,从短序列reads中重建DNAcontigs的方法的开发,以及基于覆盖率将组装的contigs分选到群体基因组中,产生了以基因组为中心的宏基因组学和宏基因组组装基因组(MAGs)。短reads组装具有独特的挑战,特别是由于一个群落中细菌和古菌的丰度不同,多样性高,以及菌株水平的差异。新一代的组装流程被设计成考虑和利用这些数据的独特方面(表1)。目前组装质量通常是比较不同的方法,通过单基因组组装方法的总结统计,如大小、contig N50和最大contig长度来评估。
基因组分箱的直接输出往往包含错误的配位序列。因此,通常在分箱后对MAG进行完善和评估。完整性和污染是评估MAG质量的两个常用指标。
基因组解析宏基因组学改变了我们研究未培养的微生物的能力,并导致了分类学、微生物生态学、生物地球化学和进化生物学方面的发现。将MAGs纳入进化树增加了已知微生物属的数量,极大地改变了我们对微生物系统发育的理解。对MAGs的分析也揭示了微生物代谢多样性和生态位分化的新见解。
领域新宠:病毒宏基因组学
宏基因组学方法的出现,使得对未被培养的病毒的研究成为可能,并完全重塑了我们对病毒作为许多地球生物地球化学循环的主要参与者的认识。Shotgun宏基因组方法可以在微生物群落的背景下对病毒进行表征,但为了获得更稀有的病毒基因组,需要采用针对性的宏基因组方法。靶向方法包括细胞分类分析(cellorting)以及病毒宏基因组(viromes)。
从组学的方法中发现病毒的速度是无与伦比的,新的生物信息学工具使得病毒生态系统影响的表征、检测不明病毒、未培养病毒的病毒分类以及病毒的全球比较成为可能。长读长技术的发展可以检测整个病毒,与短读长技术结合后,可以提高对病毒基因组的检测和表征。强大的工具,如稳定同位素探针和纳米级二次离子质谱,正在被用来描述病毒的活性和量化病毒与宿主的相互作用。
通过宏组学方法对病毒进行表征有一定的局限性,需要注意。病毒没有一个通用的标记基因,大多数检测到的病毒基因功能未知,其中一些基因是宿主衍生的。这些局限性为预测基因组的完整性、完整的分类学框架以及病毒是毒性还是温和带来了挑战。
在微生物生态学家深入挖掘宏基因组提供的新信息的同时,微生物组的宏基因组分析将通过DNA和RNA测序技术的改进继续发展。长读长(>10 kb)测序技术在改善基因组组装和分类学与功能的分配方面具有很大的潜力,但是需要考虑高错误率的限制。
新平台(如Hi-C和Tn-seq)在宏基因组学中的使用不断增加,将增加目前的数据生成工作,并为数据存储和标准化带来新的瓶颈。随着长读长测序变得更便宜、更准确,目前使用的精心设计的MAG发现方法将受到挑战。未来的宏基因组学将与数据分析解决方案紧密相连,这些解决方案可以促进搜索和内存效率高的组装方法,与TB级到PB级的数据兼容。然而,这些分析方法的一个关键配套是扩展高质量的注释数据库,这些数据库对于理解微生物组功能机制至关重要。
此外,针对低DNA和RNA输入的样品制备和测序的改进将使我们能够在更小的尺度上进行采样,并能够从更大的空间尺度上获取基因组信息。进一步尝试调整当前的测序技术以实现微生物细胞内所有分子的绝对定量,可以帮助将核心和动态功能复杂的微生物组扩展到驱动地球物质循环的更大的生物地球化学和生态系统层面的相互作用。克服方法上的挑战将继续增加我们对微生物分类学、功能、生态学和进化的理解。
首发公号:国家基因库大数据平台
参考文献
Taş N, de Jong AE, Li Y, Trubl G, Xue Y, Dove NC. Metagenomic tools in microbial ecology research. Curr Opin Biotechnol. 2021 Feb 13;67:184-191.
图片均来源于参考文献,如有侵权请联系删除。