近年来,RNA-seq凭借其周期短,价格低,普适性高等优势,备受科研人员的青睐。而大家在进行转录组分析结果解读时,可能会遇到各种各样的问题。本次小编携手经验丰富的售后人员,整理了一些常见问题,分享给大家,希望可以对您有所帮助。
Q1:关注的基因在富集结果中未查找到是为什么?
A1:首先确认目的基因是否有GO、KEGG等数据库的注释(可通过NovoMagic云平台的“根据基因id筛选目的信息”筛选基因的注释信息),如没有注释则不会有富集结果。若确定有功能注释则要确认是否为显著差异的基因,GO、KEGG富集均是以差异基因进行分析,如果目的基因不是差异基因则无法在富集结果中找到;这时可查看能否通过调整差异筛选阈值使其符合显著差异的范畴(可通过NovoMagic云平台的“一键实现差异分析与富集”功能得到相应的富集结果)。若目的基因有功能注释但是无法通过调参得到富集结果,则可直接查看该基因相关的GSEA富集结果。
Q2:关注的通路未在富集结果中找到是什么原因?
A2:首先确认查看的富集列表是否为enrich_significant.xls,该表格是筛选padj<0.05的显著富集结果,目的通路不符合此标准则不在此表格中体现,建议可在全部的富集结果enrich.xls表格中进行查找。若在全部富集结果中无法查到目的通路,可以确认一下目的通路是否为某个通路中的某部分过程,若为某通路的子通路可能无法进行展示,建议直接查看网页版通路图确认目的通路的相关信息。
Q3:目标通路富集不显著的该如何处理?
A3:首先确认差异基因的数目,如果得到的差异基因过少,很有可能导致后面的功能富集分析没有显著性结果。若是此原因可通过调整差异筛选阈值来增加差异基因的数目并重新进行差异与富集的分析(可使用NovoMagic云平台中“一键实现差异分析与富集”功能),看最后得到的结果中目标通路是否显著。
其次确认目标通路的pvalue值,若差异基因数目并没有特别少但是目标通路却不是显著富集,此时可查看目标通路的pvalue值是否小于0.05,将显著富集的阈值padj<0.05更换成pvalue<0.05也可进行分析。
如果调参后目标通路的pvalue与padj均大于0.05,建议从生物学意义的角度出发,pvalue和padj只是个参考而已,那些不显著的通路也值得解读(从功能注释的角度解读,而不是从富集分析的角度解读)。只要结果可以解释,能富集到我们关注的基因就可以。
Q4:差异p值和富集p值是什么关系?
A4:差异p值:在差异结果中pvalue为显著性检验的p值,计算模型为负二项分布,padj为多重假设检验校正后的p值,计算方法为BH,pvalue、padj代表的是显著差异的阈值。
富集p值:在富集结果中pvalue为显著性检验的p值,计算原理为
padj为多重假设检验校正后的p值,计算方法为BH,pvalue、padj代表的是显著富集的阈值。
差异的p值与富集结果中p值代表的含义不同,同时两个分析中pvalue的计算方式不一致,两者没有任何联系不能混淆。
Q5:利用公式对log2(FoldChange)计算的结果,与结果文件给出不一致,是什么原因?
A5:log2(FoldChange)是由软件DESeq2计算得到的,这是一种用于计算数据差异分析的方法,它使用离散度和倍数变化的收缩估计来提高估计的稳定性和可解释性,并不是说所有的数据都是按照表达量的数值来计算的,其实是使用了一个收缩模型,当这个数据异常变化的时候,是对数据有处理的,所以会出现不一致的情况。
Q6:某基因在两个样本中表达量差别很大,却不存在于显著差异的基因列表中,这是为什么?
A6:差异基因的筛选是基于统计学意义的,不能直观的通过两个数值的大小判断是否是差异基因。
首先:受测序深度的影响,有些样品的测序深度较深,可能导致该样品的 readcount数值较高,做差异分析的第一步就是要消除测序深度的影响,对原始数据进行标准化处理(我们在有重复项目中,使用 DESeq2自带的标准化方法;无重复项目中,使用 TMM 标准化方法)。
其次:在差异分析过程中,需要对 readcount 的分布进行估计,经验表明,readcount服从负二项分布。在有重复的项目中,重复的好坏也会对差异基因与否产生影响;如果重复较差,组内差异情况会屏蔽掉部分组间的差异。在估计完参数后,需要用特定检验方法来判断差异基因与否,这时就有可能导致看起来表达差异大的基因经分析后实际不是差异基因。
今天的解答就到此结束啦,希望本次的内容可以帮助到大家更好地进行转录组分析结果解读。如果大家还有其他问题,也可以在评论区留言哦~