RNA测序中增加数据量真的那么重要吗
来源: 联川生物技术公司 2018/7/31 16:57:00 访问量:962
分享0
现今,转录组测序技术是转录组研究的主力军,但是RNA测序中增加数据量真的那么重要吗?今天小编为大家推送的这篇文章将会就此问题为大家答疑解惑,快来一起学习吧~
随着新一代高通量测序技术的迅猛发展,RNA-Seq技术即转录组测序技术已成为目前转录组研究的重要手段。基于Illumina高通量测序平台的RNA-Seq技术能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。测序深度(Sequencing Depth)指测序得到的碱基总量与目标测序片段大小的比值,它是评价测序量的指标之一。转录组研究中主要采用reads数目(测序数据量)来代替测序深度。转录组测序数据量不仅与实验成本直接相关,还与检出的表达基因数量及基因表达量准确程度直接相关。因此选择合适的测序数据量既可以达到基因检测和基因表达分析的目的,也能最大程度的节省科研经费。
目前,已有一些关于转录组测序数据量对表达基因检测及表达量估计影响的研究。Wang[1]等人先后通过两个测序平台对两只鸡的肺部组织样品做了转录组测序,分别得到4.9M和1.6M(reads 60 bp),29.6M和28.7M(reads 75 bp)。从29.6M和28.7M中随机取出10M,15M和20M的reads,利用这些数据研究测序深度对表达基因检测的影响。结果如Table 1 所示:随着测序量的增加,检测到的基因数目逐渐增多,在30M(reads 75 bp)的测序深度下基本可以检测到所有已注释的基因(NCBI上已注释的基因共15742个)。
Table 1 Number of detected annotated chicken genes at different levels of sequence depth.
进一步通过不同测序数据量以及不同测序数据量下不同表达水平基因和30M测序数据量数据做相关性分析,发现数据量低时主要影响的是低表达基因的检测。
图1:不同测序数据量以及不同表达区间和30M测序数据量数据做相关性分析
2012年,Robles等人[2]研究了一系列不同数量的生物或技术重复,测序深度和分析方法下,检测差异表达的能力的详细分析。由Table 2可知:随着生物学重复增加,不同测序深度所对应的假阳性率(FPR,false positive rate)基本保持不变;而随着测序深度增加,不同生物学重复所对应的假阳性率也保持不变。生物学重复或测序深度的增加对假阳性率基本没有影响。
Table 2 Effects of sequencing depth on FPR at different n and depths
而对真阳性率(TPR,true positive rate)分析发现:随着生物学重复增加,不同测序深度所对应的真阳性率不断提高,且提高幅度很大;而随着测序深度增加,不同生物学重复所对应的真阳性率略有提高,但幅度不大。这说明生物学重复对真阳性率即数据准确性的影响很大,生物学重复的增加可以提高数据的准确性。相较而言,测序深度的增加对数据准确性影响不大(Table 3)。
Table 3 Effects of sequencing depth on TPR at different n and depths
2014年,Liu等[3]以人类细胞MCF7为研究对象,显示更多生物学重复和更深层次测序之间的明确权衡,以增加检测差异表达基因的能力。图2表示FDR<0.05时不同重复和不同测序数据量下检测的差异表达基因数:同一测序数据量下,增加重复数,检测到的差异表达基因明显增多。而同一重复数下,增加测序数据量,检测到的差异表达基因也会增加,但增长幅度和重复数增加的幅度相比小,尤其是测序数据量在10M以上时,差异基因数量增加更加平缓。而在总测序量相同时,如总测序量为30M时,测序数据量为10M、重复数为3时的检测到的差异表达基因数目明显高于测序数据量为15M、重复数为2时的差异表达基因数目。
图2:FDR<0.05时不同测序数据量、重复数检测到的DE数量(edgeR)
而当分析软件为edgeR ,FDR<0.01时,或者分析软件DEseq、FDR<0.05时不同重复和不同测序深度检测的差异表达基因数变化趋势和分析软件为edgeR、FDR<0.05时的趋势一致(图3)。表明对于差异基因的检测,生物学重复的影响大于测序数据量的影响。
图3:FDR<0.01时不同测序深度、重复数检测到的DE数量(edgeR)
同年,高原等[4]利用小鼠大脑中的RNA,利用HiSeq 2000测序平台进行测序,共产出38M有效reads,从中随机取出25%,50%,75%的reads,并构建4个不同测序深度的文库,分析在不同测序深度下检出的基因数及其表达量的变化情况。从不同深度下检出基因个数的变化(表4)可看出,随着测序深度的增加,检测出的表达基因数目也在增加;但是检出基因个数和测序深度并不保持线性关系,随着测序深度的增加,新增的检出基因个数逐渐减少。
表4 不同测序深度下检出的基因个数及相邻深度间变化
2015年,宾浪漫等[5]以人类脑组织的转录组测序数据为分析材料,模拟构建了不同测序深度的文库,分析所有数据,并比较分析了不同测序深度下检测到的基因数量的变化。图4展示了样品Ⅰ,Ⅱ,Ⅲ的测序数据量与检测到的表达基因数量的关系。结果显示,随着测序数据量的增加,检测到的基因数量也随之增加,但两者并不是简单的线性关系,而且,新增检出的基因个数随着测序数据量的增加而逐渐减小。
图4 测序数据量与检出的表达基因数量的关系
综上,当测序数据量达到特定阈值前,检出的表达基因数量随数据量的增加而快速增加,但当数据量达到该特定阈值后,测序数据量的增加对表达基因检测的影响极小,此时检出的表达基因数量的增加量趋近于0,此时,检出的表达基因数量进入平台期,即检出的表达基因的数量趋于稳定,并不会随着测序数据量的增加而增加。所以在测序数据量满足要求的情况下,增加数据量并不会影响后期的数据挖掘和分析。对于人、小鼠的转录组研究,测序数据量4-6G完全满足数据分析需求,而对于任何小鼠的lncRNA研究,测序数据量10-12G也足矣(表5)。上文提到生物学重复同样影响表达基因数目的准确性,且影响程度远大于测序数据量。在总数据量相同的情况下,生物学重复增加比测序数据量增加能检测到更多的表达基因,因此在测序数据量满足要求的情况下,增加生物学重复才是获得可靠数据结果的最有效途径。
表5:各测序项目测序数据量(人)
注:等效测序数据量,即该测序项目测序数据量达到相应数值后即可满足分析需求,再增加测序数据量对分析结果的提升很小。因此当测序数据量超过项目最低测序数据量时,即可开展数据分析,不需要补测数据,节省数据补测时间,缩短项目周期,加快文章发表。
参考文献
1. Wang, Ying, et al. Evaluation of the Coverage and Depth of Transcriptome by RNA-Seq in Chickens. BMC Bioinformatics, vol. 12, no. 10, 2011, pp. 1–7.
2. Robles J A, Qureshi S E, Stephen S J, et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing [J]. Bmc Genomics, 2012, 13(1):484.
3. Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication? [J]. Bioinformatics, 2014, 30(3):301-4.
4. 高原,王翌霞,张亮,等.转录组测序深度对表达基因检出及表达量估计的影响[J].云南农业大学学报(自然科学), 2014, 29(5):642-647.
5. 宾浪漫.转录组测序深度对表达基因检测影响的初步研究[D].湘潭大学, 2015.