第一步,测序数据的质量检查。测序的原始数据的标准文件为fastq格式,是原始图像数据文件碱基识别转化得来,通常称为 raw reads。fastq 文件包含四行:
第一行是序列标识以及描述信息,以“@”开头;
第二行是序列;
第三行是以“+”开头,后面是序列标士符和描述信息,或者什么也不加;
第四行是序列的质量信息,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
(备注:1.每个字符对应的ASCII值减去33,即为第二行序列的质量值。此值用来衡量序列的准确性。2.测序的错误率与碱基的质量相关,并受测序仪、试剂、样品和实验操作等多个因素的影响)
第二步,GC含量分布检测。对GC含量分布的检测用于检测有无AT、GC分离。理论上,A和T、G和C碱基含量在每个测序循环上应分别相等,且在整个测序过程中稳定不变。而在实际的测序中,由于DNA模板扩增偏差及前几个碱基测序质量低等原因,会导致每个read前几个碱基有较大波动,不过这属于正常范围。
第三步,测序深度、覆盖度、比对率检查。当位点的碱基覆盖深度达到10x以上,突变率大于20%,则认为此位点出检测到的SNP更为可信。
第四步,数据分析。对于通过质量评价之后的数据,通常的分析流程包括:
1)数据过滤,包括接头、低质量的Reads
2)序列比对,常用软件BWA。原理:基于Burrows Wheeler 转化法,对于参考基因组进行压缩并建立索引,再进行比对,再通过查找和回溯来定位(序列比对中允许一定范围的错配)
3)序列排序,去冗余。samtools 软件将比对后的 sam 文件转化为二进制的 bam 文件。然后使用 Picardtools 软件对 bam文件排序,最后使用Picard-tool kit软件的MarkDuplicates 工具去除冗余数据。
4)变异检测和过滤。通常用 samtools 软件和 VarScan 软件识别SNP和InDel检测过滤;
5)变异的注释。软件是 Annovar 工具,注释内容包括:突变位置、突变分类(杂合和纯和)、基因名、转录本名、外显子号、蛋白质突变、氨基酸突变、rs号、1000Genome基因组频率、功能预测模型(SIFT、polyphen)、数据库(cosmic 70、clinvar)等。