在高通量测序王国中, Raw reads(或raw data)已不陌生,但在扩增子测序的质控数据中还有Raw tags、Clean tags、Effective tags等一串的专属名词,这些名词代表什么,分析要关注哪些数据,测序数据量要选择多少可以满足需求呢,带着这些疑问,我们将为您一一揭晓:
首先简单说下扩增子的实验过程,与其他产品区别就是增加了扩增环节,扩增是依据测序仪器的读长和目标序列,设计特异引物对基因组进行扩增,得到目标片段后上机测序读取碱基序列,进而进行生物学分析。也由于进行了扩增,所以对应的产品命名就叫做扩增子了,同样由于扩增子广泛应用在微生物多样性研究中,也被叫做微生物扩增子测序。对应的实验流程如下:
测序完成后就是数据质控部分了,首先奉上的是Raw reads、 Raw tags、Clean tags、Effective tags的关系图,即质控流程图:
接下来就是专业的名称解释了:
Raw reads:测序的原始图像数据经 base calling 转化为序列数据,一般称之为 raw data 或 raw reads,结果以 fastq 文件格式存储 (文件名:*.fq)。fastq 文件为用户得到的最原始文件,里面存储 reads 的序列以及 reads 的测序质量,由于为双端测序,一个样本会对应两个fastq文件:raw_1.fq,raw_2.fq,分析对应read1序列文件和read2的序列文件。
每个 fastq 格式文件中每个 read 有四行信息,相信大家也不陌生了,展示如下:
@HWI-EAS80_4_4_1_554_12
GTATGCCGTCTTCTGCTTGAAAAAAAAAAACATAAAACAA
+HWI-EAS80_4_4_1_554_126
hhhhhhhhhhhhhhhhhhh[hEhSJPLeLdCLEN>IXHAA
4 行信息说明如下:
第 1 行是序列名称,由测序仪产生,包含index序列及read1或read2标志;
第 2 行是测序序列,由 “ACGT”组成,也就是用于分析的序列信息了;
第 3 行是序列ID,也有省略了ID名称后直接用“+”表示一行信息的;
第 4 行是序列的测序质量,每个字母对应第 2 行每个碱基的质量值,报告中常见的Q20、Q30就是依据这个来计算了;
Raw tags:将双端测序得到的read1和read2根据overlap的碱基进行拼接,从而获得目的片段得碱基序列,得到的序列即为原始Tags数据(Raw Tags),拼接原理如下:
Clean tags:熟悉二代测序都懂,原始数据中会含有一些低质量的碱基或者序列,为保证后续分析的准确性,需要对Raw Tags经过严格的过滤处理得到高质量的Tags数据(Clean Tags)。
effective tags:Clean tags序列通过与物种注释数据库进行比对检测嵌合体序列,并最终去除其中的嵌合体序列,就可以得到最终的有效数据(Effective Tags)。后续的数据分析也就在此基础上进行了。
再补充个嵌合体小tips:
嵌合体序列由来自两条或者多条模板链的序列组成,如图所示,在扩增序列X的过程中,在序列延伸阶段,只产生了部分X序列延伸阶段就结束了,在下一轮的PCR反应中,这部分序列作为序列Y的引物接着延伸,扩增就会形成X和Y的嵌合体序列。而实际上嵌合体在正常生物体中是基本不存在的,所以在扩增子测序的分析中,需要去除嵌合体序列。
以上就是扩增子数据从下机到正式进入分析前的质控流程了,了解这些名词的含义,开篇提出的疑问就so easy了。
问:扩增子分析要关注哪些数据?
答:数据从Raw reads到Effective tags是层层过滤得到的,最终用于分析的数据为Effective tags,故拿到质控报告后需重点需要查看该数值。
问:测序数据量要选择多少可以满足需求呢?
答:前边说到,我们需要重点关注Effective tags,但由拼接效率、碱基质量、嵌合体等影响,不能直接推断的Effective tags与Raw read换算公式。因此我们NCBI数据库中随机下载了近三年发表的2005个扩增子样本数据,首先统计的基于Raw reads水平,不同数据量下的样本数目和占比如下:
样本的Effective tags统计如下:
综合两表来看,NCBI官网中扩增子样本数据集中在Raw reads 3w-10w(65.1%),Effective tags 集中在0-3w(77.7%);同时对3w-10w的Raw reads进行细致反馈划分,发现多数样本测序数据集中在5w左右,故推荐的测序数据为5w。