转录组分析学习笔记----结果解读
学到的新知识点
siRNA(Small interfering RNA)一般指小干扰RNA。
Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
Scaffold:获得Contigs后,软件将reads比对回Contigs,通过paired-end reads能确定来自同一转录本的不同Contigs以及这些Contigs之间的距离,软件将这些Contigs连在一起,中间未知碱基用N表示,这样就得到Scaffold。
Unigene:利用paired-end reads对Scaffold做补洞处理,最后得到含N最少,两端不能再延长的序列,称之为Unigene。
cSNP(coding SNP)即位于编码区内的SNP。
基于宏基因组与宏转录组的数据对样本进行物种分类目前有以下几种方法:
1:将测序数据与nr数据库进行比对,主要使用的比对软件为diamond软件,随后输出m8格式的比对结果,然后作为MEGAN软件的输入,megan软件很强大,不但可以做物种注释、稀疏曲线、还可以注释COG、KEGG、SEED等数据库的注释。
2:另外一种是将测序数据比对到目前已经发表的微生物基因组,推荐使用kraken软件,该软件主要还自动生成了基于RefSeq数据库的参考数据库,而且速度快。
3:另外一种方式基于原始测序数据与功能基因的比对,这里使用的软件metaphlan,该软件也集成了内部数据,使用比对软件为bowtie,速度也很快。
4:其实基于宏基因组,可以借助将数据中的rRNA序列进行分离(推荐SortMeRNA),并借助相关的rRNA分析软件例如QIIME进行物种组成分析,但是对于宏转录组存在弊端,就是你在做宏转录组的时候,一般实验阶段会去掉rRNA.