RNA-seq如今已经成了最受宠爱的生信分析了,而如今琳琅满目的各种生信软件摆在具有新时代选择困难症的同学们眼前我们又犯难了。我们该选择哪套流程哪种工具进行分析呢?我选的这种工具会不会不准确最后下游验证不出来那可就坏大事了。今天我们就来聊聊关于如何选择最优的RNA-seq软件做分析,让我们自信做生信人。
一、mapping比对软件的选择
-
比对软件有tophat、bwa、bowtie2、killisto、salmon和STAR等等。但通过实验(作者用的都是默认的参数)得到的结论:比对软件对RNA-seq最后找DEG的影响非常的小,主要影响是有关于剪切比对及所耗计算机资源和比对速度。
当然还有当下高效的比对软件HISAT2也是支持spliced read aligner的而且速度比STAR快1.2倍比Tophat快50倍。
可以看出不同比对软件对最后的DEG影响不大,造成DEG有较大差异的软件主要是差异表达分析软件
二、差异表达分析软件的选择
- 由上图fig.1可以看出不同的差异分析软件得到最终的DEG有较大的差别,所以我们应该非常非常慎重的去选择适合我们的差异表达分析软件。这次比较了较常用的几种差异分析软件baySeq、DESeq、edgeR、DESeq2、EBSeq、limma+voom、NOIseq、SAMseq和sleuth。
为了减少误差,其测试的输入计数矩阵都由Tophat和HTSeq软件生成,所有软件都用默认参数。下图为各个软件应用的统计学方法:
以qRT-PCR为金标准来评判差异分析结果,NOIseq和baySeq与qRT-PCR的结果最为一致,且受mapper软件的影响较小。下表列出了差异分析软件的综合性能评估:
加粗的行为综合性能较好的前三名,分别为NOIseq、limma+voom和DESeq2。这三种软件只有大约3.8%DEGs没有被qRT-PCR识别。当样本为小样本(两个重复)时,DESeq能够获得更好的结果。而limma+voom对超过两个重复的样本有较好的结果。NOIseq和DESeq2显示一致性的结果,表明了这些软件适合较大的样本数和已经注释了的基因组。SAMseq能够列出最相关的DEG但是假阳性比较高。edgeR软件识别的DEGs相对来说有更低的真阳性率,81.3%的结果与qRT-PCR一致。
参考文献:RNA-Seq differential expression analysis: An extended review and a software tool