区分一二三代测序(引自生信星球)
- 早期测序(Sanger测序)
设置四个反应体系1-4,分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP(带有放射性标记)。
假如扩增过程中ddATP遇到了T位点,就结合并终止(因为ddNTP的2‘和3'都没有羟基),那么其他的dNTP就无法结合。在一个大规模样本中,ddNTP会结合所有位点,只是位点结合次数多少的问题 。
最后利用凝胶电泳和放射自显影只能看到带有荧光标记的ddNTP,他们的排列顺序先利用电泳条带前后关系确定下,再用A-T, T-A, C-G, G-C关系反转一下,就能知道我们的测序序列。
优点:准确率高;缺点:通量低、成本高
- 二代测序
循环阵列合成测序(NGS)
主要平台有:
1.罗氏454公司的GS FLX sequencer
2.Illumina solexa genome analyzer
3.ABI公司的SOLiD sequencer
优点:提高速度、降低成本、保持高准确性;缺点;读长短、拼接困难,错误率增加
- 三代测序
PacBio公司的SMRT
Oxford Nanopore Technologies
优点:不需要经过PCR扩增,超长读长,可实现了对每一条DNA分子的单独测序;缺点:错误率高,达到10-15%。
二代测序的大体流程(引自生信星球)
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
流程:
1.构建DNA文库:超声波将DNA分子打断成300-800bp长序列片段,构成单链DNA文库。
2.上样:lane上随机分布两种接头,p5‘(与P5互补),P7(与P7'互补),待测序列自带了p5接头和p7接头
3.桥式PCR:
第一轮扩增模版:flowcell表面固定的序列 --> 模版链,序列互补成双链
去杂:加入NaOH强碱性溶液使双链DNA变性
桥式形成: 加入缓冲溶液,互补链的p7‘和lane上的p7互补
桥式PCR: PCR弯成桥状,一轮桥式扩增一倍
循环: 大约35个循环后,最终每个DNA片段都将在各自的位置上集中成束,称为cluster,这是一群完全相同的序列。
解链: 桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。
4.测序:一次加一个荧光碱基,用完失效
5.数据产生:图象校正、cluster识别、荧光校正、化学校正、碱基识别、PF(Illumina默认的数据过滤算法Pass Filtering)、质量评估
6.数据初步分析:使用fastqc进行质量分析
下载与安装fastqc:
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
mkdir FastQC
unzip fastqc_v0.11.7.zip
cd FastQC
chmod 755 fastqc
echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc
source ~/.bashrc
fastqc --help
fastqc使用过程常用代码:
基本格式:fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] seqfile1 .. seqfileN
生成的报告文件的储存路径:-o output dir
让程序不打包:--extract
选择程序运行的线程数:-t --threads
安静运行模式:-q
结果分析:
检查数据完整性:md5sum *.gz
质控文件:fastqc *.gz -t 4
导出结果:filezilla