RNA测序中增加数据量真的那么重要吗

来源：联川生物技术公司 2018/7/31 16:57:00 访问量：962

现今，转录组测序技术是转录组研究的主力军，但是RNA测序中增加数据量真的那么重要吗？今天小编为大家推送的这篇文章将会就此问题为大家答疑解惑，快来一起学习吧~

随着新一代高通量测序技术的迅猛发展，RNA-Seq技术即转录组测序技术已成为目前转录组研究的重要手段。基于Illumina高通量测序平台的RNA-Seq技术能够在单核苷酸水平对任意物种的整体转录活动进行检测，在分析转录本的结构和表达水平的同时，还能发现未知转录本和稀有转录本，精确地识别可变剪切位点以及cSNP（编码序列单核苷酸多态性），提供最全面的转录组信息。测序深度（Sequencing Depth）指测序得到的碱基总量与目标测序片段大小的比值，它是评价测序量的指标之一。转录组研究中主要采用reads数目（测序数据量）来代替测序深度。转录组测序数据量不仅与实验成本直接相关，还与检出的表达基因数量及基因表达量准确程度直接相关。因此选择合适的测序数据量既可以达到基因检测和基因表达分析的目的，也能最大程度的节省科研经费。

目前，已有一些关于转录组测序数据量对表达基因检测及表达量估计影响的研究。Wang[1]等人先后通过两个测序平台对两只鸡的肺部组织样品做了转录组测序，分别得到4.9M和1.6M（reads 60 bp），29.6M和28.7M（reads 75 bp）。从29.6M和28.7M中随机取出10M，15M和20M的reads，利用这些数据研究测序深度对表达基因检测的影响。结果如Table 1 所示：随着测序量的增加，检测到的基因数目逐渐增多，在30M（reads 75 bp）的测序深度下基本可以检测到所有已注释的基因（NCBI上已注释的基因共15742个）。

Table 1 Number of detected annotated chicken genes at different levels of sequence depth.

image

进一步通过不同测序数据量以及不同测序数据量下不同表达水平基因和30M测序数据量数据做相关性分析，发现数据量低时主要影响的是低表达基因的检测。

image

图1：不同测序数据量以及不同表达区间和30M测序数据量数据做相关性分析

2012年，Robles等人[2]研究了一系列不同数量的生物或技术重复，测序深度和分析方法下，检测差异表达的能力的详细分析。由Table 2可知：随着生物学重复增加，不同测序深度所对应的假阳性率（FPR，false positive rate）基本保持不变；而随着测序深度增加，不同生物学重复所对应的假阳性率也保持不变。生物学重复或测序深度的增加对假阳性率基本没有影响。

Table 2 Effects of sequencing depth on FPR at different n and depths

image

而对真阳性率（TPR，true positive rate）分析发现：随着生物学重复增加，不同测序深度所对应的真阳性率不断提高，且提高幅度很大；而随着测序深度增加，不同生物学重复所对应的真阳性率略有提高，但幅度不大。这说明生物学重复对真阳性率即数据准确性的影响很大，生物学重复的增加可以提高数据的准确性。相较而言，测序深度的增加对数据准确性影响不大（Table 3）。

Table 3 Effects of sequencing depth on TPR at different n and depths

image

2014年，Liu等[3]以人类细胞MCF7为研究对象，显示更多生物学重复和更深层次测序之间的明确权衡，以增加检测差异表达基因的能力。图2表示FDR<0.05时不同重复和不同测序数据量下检测的差异表达基因数：同一测序数据量下，增加重复数，检测到的差异表达基因明显增多。而同一重复数下，增加测序数据量，检测到的差异表达基因也会增加，但增长幅度和重复数增加的幅度相比小，尤其是测序数据量在10M以上时，差异基因数量增加更加平缓。而在总测序量相同时，如总测序量为30M时，测序数据量为10M、重复数为3时的检测到的差异表达基因数目明显高于测序数据量为15M、重复数为2时的差异表达基因数目。

image

图2：FDR<0.05时不同测序数据量、重复数检测到的DE数量（edgeR）

而当分析软件为edgeR ，FDR<0.01时，或者分析软件DEseq、FDR<0.05时不同重复和不同测序深度检测的差异表达基因数变化趋势和分析软件为edgeR、FDR<0.05时的趋势一致（图3）。表明对于差异基因的检测，生物学重复的影响大于测序数据量的影响。

image

图3：FDR<0.01时不同测序深度、重复数检测到的DE数量（edgeR）

同年，高原等[4]利用小鼠大脑中的RNA，利用HiSeq 2000测序平台进行测序，共产出38M有效reads，从中随机取出25%，50%，75%的reads，并构建4个不同测序深度的文库，分析在不同测序深度下检出的基因数及其表达量的变化情况。从不同深度下检出基因个数的变化（表4）可看出，随着测序深度的增加，检测出的表达基因数目也在增加；但是检出基因个数和测序深度并不保持线性关系，随着测序深度的增加，新增的检出基因个数逐渐减少。

表4 不同测序深度下检出的基因个数及相邻深度间变化

image

2015年，宾浪漫等[5]以人类脑组织的转录组测序数据为分析材料，模拟构建了不同测序深度的文库，分析所有数据，并比较分析了不同测序深度下检测到的基因数量的变化。图4展示了样品Ⅰ，Ⅱ，Ⅲ的测序数据量与检测到的表达基因数量的关系。结果显示，随着测序数据量的增加，检测到的基因数量也随之增加，但两者并不是简单的线性关系，而且，新增检出的基因个数随着测序数据量的增加而逐渐减小。

image

图4 测序数据量与检出的表达基因数量的关系

综上，当测序数据量达到特定阈值前，检出的表达基因数量随数据量的增加而快速增加，但当数据量达到该特定阈值后，测序数据量的增加对表达基因检测的影响极小，此时检出的表达基因数量的增加量趋近于0，此时，检出的表达基因数量进入平台期，即检出的表达基因的数量趋于稳定，并不会随着测序数据量的增加而增加。所以在测序数据量满足要求的情况下，增加数据量并不会影响后期的数据挖掘和分析。对于人、小鼠的转录组研究，测序数据量4-6G完全满足数据分析需求，而对于任何小鼠的lncRNA研究，测序数据量10-12G也足矣（表5）。上文提到生物学重复同样影响表达基因数目的准确性，且影响程度远大于测序数据量。在总数据量相同的情况下，生物学重复增加比测序数据量增加能检测到更多的表达基因，因此在测序数据量满足要求的情况下，增加生物学重复才是获得可靠数据结果的最有效途径。

表5：各测序项目测序数据量（人）

image

注：等效测序数据量，即该测序项目测序数据量达到相应数值后即可满足分析需求，再增加测序数据量对分析结果的提升很小。因此当测序数据量超过项目最低测序数据量时，即可开展数据分析，不需要补测数据，节省数据补测时间，缩短项目周期，加快文章发表。

参考文献

1. Wang, Ying, et al. Evaluation of the Coverage and Depth of Transcriptome by RNA-Seq in Chickens. BMC Bioinformatics, vol. 12, no. 10, 2011, pp. 1–7.

2. Robles J A, Qureshi S E, Stephen S J, et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing [J]. Bmc Genomics, 2012, 13(1):484.

3. Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication? [J]. Bioinformatics, 2014, 30(3):301-4.

4. 高原,王翌霞,张亮,等.转录组测序深度对表达基因检出及表达量估计的影响[J].云南农业大学学报(自然科学), 2014, 29(5):642-647.

5. 宾浪漫.转录组测序深度对表达基因检测影响的初步研究[D].湘潭大学, 2015.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

RNA测序中增加数据量真的那么重要吗

RNA测序中增加数据量真的那么重要吗

推荐阅读更多精彩内容