测序知识
学习内容
- 怎么区分一二三代测序
- 二代测序大体流程
- NGS组学都包括哪些分类(粗略)
本篇笔记内容整理来自测序的世界/by刘小泽以及微信公众号生信星球的推文
测序过程和原理
简单来说,测序技术就是将DNA/RNA分子中碱基ATGC的排列顺序显示出来。
- 一代测序(Sanger测序,又称为SBS法、末端终止法)
- 核心原理
由于双脱氧核苷酸(ddNTP)的3’位置脱氧,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影,根据电泳带的位置确定待测分子的DNA序列。 -
优缺点
准确性好,但通量小、成本高。
目前一代测序在验证序列(就是平时送公司测序返回来自己blast的那些)以及验证基因组组装完整性方面都是金标准。
-
二代测序(NGS ,循环阵列合成测序法)
以Illumina平台为代表的第二代测序技术实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。
优缺点:二代测序大幅度提高了测序速度,降低了测序成本,保持了高准确性。缺点是读长短,拼接困难,pcr技术增加了测序的错误率。
Illumina循环SBS法(cycle SBS)即SBRT(Sequencing By Reversible Termination,可逆终止)的核心技术是DNA合成的可逆性末端循环,即3'-OH可逆性的修饰和去修饰。
Illumina市场规模占到75%以上,主打Hiseq,下面主要介绍他的PE(Pair End双端)测序原理。
相关名词释义:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
1. 边合成边测序(sequence by synthesis, SBS)——合成
①第一步:构建DNA文库
超声波将DNA分子打断成300-800bp长序列片段(人类基因组打成300-500bp),用酶补平为平末端,然后3‘端加一个A碱基(因为接头的3‘端有一个突出的T),再在两端加上互补配对的adapter,再通过PCR扩增达到一定浓度,构成单链DNA文库。
接头设计有两个作用:1. 实现桥式扩增,高效;2. 可以实现双端测序
另外,利用低循环扩增技术在接头处进行修饰(加上一些周边)。
②第二步: 上样
重点搞清楚lane上有哪两种接头以及待测序列含有哪两种接头。
构建的DNA文库中的待测序列事先配置好一定的浓度,在通过flowcell(吸附流动DNA片段的槽道)时会随机附着在flowcell表面的lane上。每个flowcell有8个lane,每个lane的表面都附有很多接头短序列,这些接头能和建库过程中加在DNA片段两端的接头相互配对从而吸附住冲过来的DNA,并能支持DNA在其表面进行桥式PCR的扩增。
⚠️这里有三点要注意:
a. lane与lane之间一般不会相互影响,也就是说一般不会出现lane1固定的DNA又与lane2结合。
b. 待测序列自带了p5接头和p7接头;lane上随机分布两种接头,P5'(与P5互补),P7(与P7'互补)。
c. 序列只能一开始是利用P5接头互补(因为p7接头和lane是一样的)。
③第三步:桥式PCR
a. 第一轮
扩增模版:flowcell表面固定的序列 --> 模版链
第一轮结果:序列补成双链。
一个很重要的概念:我们要测序的是模版链p5 - p7,开始它与lane接头配对产生了互补链,后来强碱试剂作用下两条链被分开,由于模版链没有附着在lane上,模版链被冲走,但是互补链依然稳稳固定在lane上。接下来就要对互补链p5'- p7' 进行操作。
b. 去杂
加入NaOH强碱性溶液使双链DNA变性,互补链由于和lane上短序列强力连接固定住了;模板链失去了双链氢键连接,好似悬空,它会被洗脱。
c. 桥式形成
加入缓冲溶液,互补链的p7'和lane上的p7互补(但还是一个lane中的)就像下图这样(摘自illumina官网)。目的是快速扩增lane p7接头连接的链,也就是下图中的Forward Strand,它和我们的模版链是一致的。我们后来测序只用这一半。
d. 桥式PCR
PCR弯成桥状,一轮桥式扩增一倍。
e. 循环
大约35个循环后,最终每个DNA片段都将在各自的位置上集中成束,称为cluster,这是一群完全相同的序列。目的在于实现放大单一碱基的信号强度,满足后期测序需求。
f. 解链
桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。
这一次不再进行复制,而是利用一种酶——甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane上p5'连接的链,只留下了与lane p7连接的链即Forward Strand。
④第四步:测序
如何确定上面形成的cluster的碱基排序顺序呢?illumina采取了“一次加一个荧光碱基,用完失效”的办法。illumina的测序就是在Sanger基础上加上了桥式PCR,能克服Sange低通量的缺点。
官网给出的解释如下图:
2. 边合成边测序(sequence by synthesis, SBS)——测序
a. 一轮测序:双端测序之Forward Strand
先是primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP【它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能激发不同颜色】;在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉;再加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号的记录,计算机将光学信号转化为测序碱基。这一个循环就能测定flowcell上成千上万的cluster,这就实现了高通量。
b. 再向下一轮:
再加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光。如此重复直至所有链的碱基序列被检测出。得到了Forward Strand序列。
因为一个cluster的序列是一样的,所以理论上cluster的荧光颜色应该一致。
c. Index测序:
上面的循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。
d. 双端测序之Reverse Strand:
洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。
-
三代测序
DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序,凭借超长的读长和可直接检测表观修饰等特点使其成为市场的新宠。目前以Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为主流。
名词结构化
- 基因组学(核酸序列分析)
(1)全基因组测序(WGS)
(2)全外显子组测序(WES)
(3)简化基因组测序(RRGS):①RAD-Seq;②GBS;③2bRAD;④ddGBS(也就是ddRAD)
作用:
(1)基因组作图(遗传图谱、物理图谱、转录本图谱)
(2)核苷酸序列分析
(3)基因定位
(4)基因功能分析
其它:
以全基因组测序为目标的结构基因组学
以基因功能鉴定为目标的功能基因组学 -
转录组学(基因表达分析)
(1)mRNA-Seq
(2)IncRNA-Seq(长链非编码RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
作用:
(1)获得物种或者组织的转录本信息
(2)得到转录本上基因的相关信息,如基因结构功能等
(3)发现新的基因
(4)基因结构优化
(5)发现可变剪切
(6)发现基因融合
(7)基因表达差异分析
蛋白质组学
(1)蛋白质组数据处理、蛋白及其修饰鉴定
(2)构建蛋白质数据库、相关软件的开发和应用
(3)蛋白质结构功能预测
(4)蛋白质连锁图代谢组学
(1)代谢物指纹分析
(2)代谢轮廓分析
思维导图及网站收藏
测序技术
收藏:
测序技术原理及常用数据格式简介
EMBL → Fasta格式转换(在线工具)
常见测序文件格式解析【该网站包含了各种各样的测序文件格式说明,想了解文件格式各行各列的含义直接找它】
陈巍学基因
陈巍学基因 视频1
(讲Illumina测序原理的)