测序技术及原理比较
第X代 | 公司 | 平台名称 | 测序方法 | 检测方法 | 大约读长(碱基数) | 优点 | 相对局限 |
---|---|---|---|---|---|---|---|
第一代 | ABI/生命技术公司 | 3130xL-3730xL | 桑格-毛细管电泳测序法 | 荧光/光学 | 600-1000 | 高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列 | 通量低;样品制备成本高 |
第二代 | Roche/454 | 基因组测序仪FLX系统 | 焦磷酸测序法 | 光学 | 230-400 | 在第二代中最高读长;比第一代的测序通量大 | 样品制备较难 |
第二代 | Illumina | HiSeq2000,HiSeq2500/MiSeq | 链终止物和合成测序法 | 荧光/光学 | 2x150 | 高测序通量 | 仪器昂贵 |
第三代 | 太平洋生物科学公司 | PacBio RS | 实时单分子DNA测序 | 荧光/光学 | ~1000 | 高平均读长,比第一代的测序时间降低;不需要扩增;最长单个读长接近3000碱基 | 并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低 |
第三代 | 牛津纳米孔公司 | gridION | 纳米孔外切酶测序 | 电流 | 尚未定量 | 有潜力达到高读长;可以成本生产纳米孔 | 切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置 |
测序质量控制:
FASTQ文件中测序Reads需要与指定的参考基因组进行序列比对,定位cDNA片段在基因组或基因上的位置。在序列比对之前,首先需要确保这些Reads有足够高的质量,以保证后续分析的准确。测序质量控制方式如下:
(1) 去除测序接头以及引物序列;
(2) 过滤低质量值数据,确保数据质量。
经过上述一系列的质量控制之后得到高质量Reads或碱基,称为Clean Data。Clean Data同样以FASTQ格式提供。
使用fastqc软件来展示测序数据的质量:
- 安装fastqc
注意将fastqc加入到系统环境变量中。- 在命令行中直接运行命令
fastqc seqfile1.fq [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]
output dir指的是输出结果路径
extract参数指的是输出结果是否解压
-f 参数 是输入文件的格式,指的是测序数据- 或者运行fastqc:
fastqc seqfile1.fq seqfile2.fq