概念及类型:
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
转录组测序分析可以分为有参转录组分析和无参转录组分析。有参无参的意思是,有/无参考基因组。
1、有参转录组分析流程:
2、无参转录组分析流程:
clean reads :为确保Reads有足够高的质量,将下机原始测序数据(raw reads)去掉含有带接头的、低质量的reads,得到clean reads,保证后续分析的准确性。
unigene:针对无参考基因组的物种,将小片段拼接出unigene,构建参考序列,以便后续分析,是研究无参物种分子机制与调控网络的有效手段。
三种转录组分析模式
基于研究物种是否有参考基因组,实验目的上是否需要分析新的转录本,转录组测序的分析模式大致可以分成3种类型,如下图:
一、有参,需要分析新转录本
部分有参考基因组的物种,由于注释信息不够完善,或需要分析一些非编码RNA,这时需要基于Reads与基因组比对信息对转录组进行组装,以期获得新的转录本来让分析结果更加完备。
这也是有参物种做转录组最常用的分析模式,其分析步骤如下:
Reads与基因组比对
基于比对信息组装转录本
基因或转录本表达定量
差异分析和功能富集分析
二、有参,只分析已知转录本
针对参考基因组注释信息较为详细的物种,比如人,小鼠,拟南芥等模式生物,同时您的实验目的很明确,就是分析已知的基因或转录本,那就可以直接基于基因组注释信息中提取出的转录本序列来进行后续分析。该分析模式分析流程简单、速度快,其具体分析步骤如下:
Reads与转录本序列进行比对
转录本表达定量
差异分析和功能富集分析
三、无参考基因组的转录组
而对于没有参考基因组的物种,或者基因组组装不好的物种,必须先使用测序数据组装一套转录本,再基于转录本进行后续分析。其分析步骤如下:
Reads De novo组装转录本序列
Reads 回比组装好的转录本序列
转录本表达定量
差异表达分析和功能分析
other:
怎么做无参转录组分析?
如下图1所示,在做转录组分析时,除了需要reads等原始数据外,还需要一系列的注释文件。然而,当我们的研究物种没有参考基因组但需要做转录组分析时,便不能通过以上流程获得我们需要的分析结果。
此时,我们可以通过拼接reads数据获得转录本,该转录本用于后续reads比对。再将该拼接好的转录本与各大蛋白数据库注释,其中常用的数据库有NR、NT、Swiss-Prot、KEGG、COG、GO等。获得该注释结果后,我们便对该物种的蛋白信息有一个比较清楚的了解,可以进行后续的转录组分析流程。
最常使用的组装软件为Trinity,运行该软件时,主要分三部分运行,依次为Inchworm、Chrysalis和Butterfly(下图2)。
运行Inchworm时,其目的是将每条短读长的reads打断成固定长度的Kmer(默认为25 bp)形成一个Kmer库,再将所有Kmer按其出现的次数进行排序,选择出现次数最高的Kmer进行3端延伸一个碱基(A、T、G、C),延伸后统计靠近3端25bp的Kmer在库中出现的次数,选择次数最高的那条路径(如有多条路径出现的次数一样,则几条路径保留),继续向3端延伸至不能延伸为止。同理进行5端延伸,最终形成一定长度的Contigs。
每形成一个Contigs时,将形成该Contigs的kmer从Kmer库中去除掉,继续选择次数最高的Kmer进行延伸。最终用完Kmer库中的Kmer,将Contigs放在一起形成一个contigs库。运行Chrysalis时,对Contigs库中的Contigs按照一定条件进行聚类,之后对每类Contigs构建de bruijin graphs。
最后运行Butterfly,解析上一步构建的de bruijin graphs,形成转录本。将所有转录本输出到一个文件,便是最Trinity终组装的文件,其格式如图3所示。
获得拼接后的转录本后,便可以按照Trinity官网中的说明,进行注释和下游分析,其流程如图4所示。