盘点宏转录组分析方法

导读

1. 宏转录组概念：

宏转录组测序是对某一特定时期、特定环境样品中的全部微生物的RNA进行高通量测序，直接获得该环境中所有微生物转录组信息的一种测序技术的新应用。宏转录组中不仅包含有微生物的物种信息，还有微生物的基因表达信息。如果说宏基因组能告诉我们微生物群 $\color{blue}{“能做什么”}$ ，那么宏转录组则能告诉我们这些微生物 $\color{blue}{“想做什么”}$ ，这有助于挖掘微生物功能基因和探索微生物与环境、疾病、动植物等关系的机制。

2. 宏转录组分析

从以G为单位的高通量测序数据中获取研究所需的微生物种类、基因、通路等信息是进行宏转录组研究必须经历的一步。现在网络上分析组学数据的工具五花八门。能否从众多组学工具中选择出适合分析宏转录组数据的软件，能否搭建一套完整、快速、高效、灵敏、高精确的宏转录组分析pipline，直接关乎到后期数据分析的进行。
2018年发表在Briefings in Bioinformatics [PMID: 28481971] 上的一篇综述介绍了常见的四款宏转录组分析pipline： $\color{blue}{Leimena-2013}$ ， $\color{blue}{HUMAnN2}$ ， $\color{blue}{MetaTrans}$ ， $\color{blue}{SAMSA}$ 。下面介绍一下这四款pipline中所采用的核心算法/工具、数据库和核心步骤。

一、Leimena-2013

1. 文章：
A comprehensive metatranscriptome analysis pipeline and its validation using human small intestine microbiota datasets.
BMC Genomics. 2013

2. 核心算法/工具：

SortMeRNA：去除16S，23S，18S，28S rRNAs序列的常用工具。
BLASTN：用于核酸序列比对的一个模块，速度慢于 MegaBlast，但是功能更强。
MegaBLAST：经典比对软件BlAST的子模块，速度快，能找出相似度比较高的序列，一般用于同一物种内部或者分歧不太远的物种之间。
KAAS：KEGG自动注释服务器。
链接：http://www.genome.jp/tools/kaas/

3. 数据库：

SILVA：细菌、古菌、真菌等微生物分类数据库，包含maker序列和注释信息。
COG：Cluster of Orthologous Groups of Proteins，蛋白相邻类的聚簇数据库。
MetaHIT：人类肠道宏基因组数据库 [Nature 2010]。
人类小肠宏基因组数据库 [ISME J 2012]。
KEGG：京都基因与基因组百科全书，包含生物代谢、通路等功能信息的数据库。

4. 核心步骤：

用SortMeRNA和默认的rRNA数据库去除16S，23S，18S，28S的rRNAs序列。

用BLASTN和SILVA、NCBI数据库去除剩下序列中的细菌、古菌、真核生物的tRNA/rRNA序列。

去除Illumina Phix control序列和adaptor序列。

用MegaBLAST 和BLASTN进行mRNA与NCBI数据库（含3979个细菌和古细菌的全基因组或基因组草图）的比对确定mRNA序列的物种发生起源（科/属水平）。

将至少50%比对到基因ORF的序列定义为“基因/编码序列”，少于50%的序列定义为“非编码/基因间序列”，然后用BLAST 、KEGG自动注释服务器KAAS、COG数据库、KEGG数据库进行编码序列的功能注释和代谢分析。

调整BLASTN的参数，用NCBI蛋白数据库、MetaHIT蛋白序列数据库、人类小肠宏基因组数据库、KEGG、COG进一步挖掘4）中“Unassigned mRNA序列”的功能。

二、HUMAnN2

1. 文章：
Species-level functional profiling of metagenomes and metatranscriptomes.
Nat Methods 2018

HUMAnN2介绍：http://huttenhower.sph.harvard.edu/humann2
HUMAnN2使用：https://bitbucket.org/biobakery/hmp2_workflows/src/master/

2. 核心算法/工具：

Bowtie2：是将测序reads与长参考序列比对工具 (适用于将长度大约为50到100或1000字符的reads与相对较长的基因组)。
MetaPhlAn2：可以基于宏基因组数据，获得微生物群体中种水平精度的组成，包括细菌、古菌、真核生物和病毒。如果有株水平基因组的物种，也可以追踪和研究。
MinPath：是一种使用蛋白质家族预测进行生物通路重建的节俭方法，为查询数据集实现更保守、更可靠的生物通路估计。
DIAMOND：一种新的高通量程序，可将DNA序列或蛋白质序列与NR等蛋白质参考数据库进行比对，速度可达BLAST的2万倍，具有很高的灵敏度。

3. 数据库：

UniRef：UniProt Reference Clusters（UniRef），是蛋白参考数据库。UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总，还从UniParc中选取了一些数据以求能收录更多数据，同时也保证没有冗余数据。
MetaCyc：是一个代谢通路数据库，包含来自3009个不同生物体的2722条通路。
ChocoPhlAn pangenome：泛基因组数据库，含细菌、古菌、真核生物、病毒的注释信息。

4. 核心步骤：

用KneadData、Bowtie2、Trimmomatic和hg38 mRNA数据进行序列过滤，去除低质量碱基、序列和宿主序列。

用MetaPhlAn2和ChocoPhlAn泛基因组数据库进行物种分类鉴定。

用MinPath、DIAMOND和UniRef、MetaCyc数据库进行基因家族、功能和通路的注释。

三、MetaTrans

1. 文章：
MetaTrans: an open-source pipeline for metatranscriptomics.
Sci Rep. 2016

MetaTrans链接：http://www.metatrans.org/

2. 核心算法/工具：

Kraken：能利用基于k-mer的精确比对方法和庞大的微生物基因组参考数据库（>8500种微生物）超高速、高正确性和精确性地将微生物注释到属及更低的水平。
SortMeRNA：去除16S，23S，18S，28S rRNAs序列的常用工具。
UCLUST：能以USEARCH作为序列比对引擎进行序列聚类。
SOAP2：是SOAP（Short Oligonuclotide Analysis package）的一个主要成员，能进行高速短核酸序列比对。
FragGeneScan：是在短序列中找到基因的一种基因注释程序，也可用于在完整或非完整基因组中的预测原核生物的基因。

3. 数据库：

SILVA-115：SIVLA微生物分类注释数据库（2013年版）。
Greengenes-13.5：Greengenes微生物分类注释数据库（2013年版）。
Rfam-11：用来鉴定non-coding RNAs的数据库。
tRNA-all：用来鉴定tRNA数据库。
MetaHIT：包含1250人的，由EggNOG数据库注释好的的宏基因组数据库。
M5nr：包含MG-RAST服务器提供的、1590万个独特的蛋白质和580万个来自IMG、Genbank、InterPro、KEGG、PATRIC、Phantome)、RefSeq、SEED、UniProt的功能注释。。

4. 核心步骤：

用SortMeRNA和SILVA v11527、Rfam28、Genomic tRNA database数据库进行rRNA/tRNA清除。

用Fastq-Join将有overlap的双端序列merge成更长的序列。用FragGeneScan进行基因预测，丢弃非编码基因的序列，降低计算成本。

使用SOAP2和MetaHIT、M5nr数据库进行功能注释。

使用UCLUST对1）中舍弃的rRNA序列进行聚类，使用SOAP2、QIIME和Greengenes数据库进行微生物分类学分析。

四、SAMSA

1. 文章：
SAMSA: a comprehensive metatranscriptome analysis pipeline.
BMC Bioinformatics. 2016

SAMSA GitHub链接：https://github.com/transcript/SAMSA

2. 核心算法/工具：

Trimmomatic：去除测序数据中接头、引物、低质量碱基和序列的质控工具。
FLASH：一种快速、准确的能通过序列重叠区将双端测序得到的上、下游序列合并到一起以增加读长的软件。
MG-RAST：Metagenomic Rapid Annotations using Subsystems Technology物种分类和功能分析服务器链接：http://www.mg-rast.org/

3. 数据库：

NCBI RefSeq：NCBI基因组数据库。
SEED Subsystems reference database：是能将FIGfam（蛋白质数据库）中定义的基因家族分成多个功能级别的一种基因分层方法。

4. 核心步骤：

使用Trimmomatic去除原始测序数据中的低质量碱基、序列和测序接头。

使用FLASH对齐（align）的功能将质控后的双端序列拼接成一条更长的序列（文章中提到约32-54%的双端序列能成功对齐）。

使用NCBI RefSeq和MG-RAST进行序列注释。MG-RAST包括几个步骤，包括通过SolexaQA进行初始序列质量控制检查，通过FragGeneScan进行基因注释，通过QIIME的uclust进行90%一致性的氨基酸序列聚类，然后在每个蛋白质序列聚类上使用sBLAT找到最佳匹配的参考信息。

$\color{green}{😀😀原创文章，码字不易，转载请注明出处😀😀}$

最后编辑于：2020.11.07 15:14:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

盘点宏转录组分析方法

导读

一、Leimena-2013

二、HUMAnN2

三、MetaTrans

四、SAMSA

推荐阅读更多精彩内容