本文首发于“生信大碗”公众号,转载请注明出处
之前我们讲了测序以及第一代测序技术,还没看的小伙伴可以先去补补课(你真的搞懂测序技术了吗——测序、第一代测序)。今天我们接着讲第二代测序技术。
上回我们说到,Sanger测序的缺点主要是速度慢和成本高,为了解决这些问题,新的测序技术应运而生。既然最先出现的Sanger测序是第一代测序,那么之后出现的就只能依次称为第二代、第三代测序或者是下一代、下下代测序了,不得不说,这个命名方式也有点过于直白了。
第二代测序技术又称下一代测序技术(next generation sequencing, NGS),由于通量高——一次测序能读取成千上万个短DNA片段(Sanger测序一次只能测一条DNA片段),又被称为高通量测序技术(high throughput sequencing, HTSeq)。
目前市场上主流的二代测序仪有很多,比如Illumina测序仪、罗氏454测序仪、还有国产的华大智造测序仪等,每种测序仪都有其比较独特的测序原理,这里我们以介绍市场占比最高的Illumina测序仪为主,其主要包括文库制备、桥式PCR扩增、测序三个步骤,具体如下:
1、文库制备:
1)将待测DNA随机打断为一定长度的片段(如图1)。
2)对片段的两个末端进行处理,如图2所示,最终产生的每条DNA单链的5’端均连有P7、index、Rd2SP(Read2 Sequencing Primer),3’端均连有P5和Rd1SP(Read1 Sequencing Primer),这些DNA单链即组成样品文库。
这里就需要解释一下P5/P7、index、Rd1SP和Rd2SP分别是什么了。
P5/P7:Illumina测序使用的微阵列芯片叫做流通池(flow cell),其表面固定了无数条寡核苷酸链(P5’,P7),分别可以与P5、P7’互补结合。这样,当样品文库中的DNA单链进入流通池后,就通过其3’端的P5结合到了附着在流通池表面的P5’上。
index:我们知道第二代测序是高通量测序,一次测序能读取成千上万个短DNA片段,当这些片段来自不同的样本时我们该如何区分呢?那就给来自不同样本的DNA片段添加上一段不同的序列,有序列A的就是来自A样本的DNA片段,有序列B的就是来自B样本的DNA片段,像A、B序列这种用于区分来自不同样本的DNA片段的标签序列就叫做index。
Rd1SP和Rd2SP分别是第一轮测序引物和第二轮测序引物。为什么需要两轮测序呢?第二代测序有单端测序、双端测序,顾名思义,单端测序就是只从一端读取DNA的序列(→),双端测序就是从两端相向读取DNA的序列(→←),那自然就需要在待测DNA的两端都加上引物了。
2、桥式PCR扩增
1)前面我们提到,样品文库中的DNA单链进入流通池后,就通过其3’端的P5结合到了附着在流通池表面的P5’上。由于样品文库经过稀释后浓度足够低,因此,可以认为各DNA单链均匀的结合在流通池表面,且相距足够远(图3)。
2)以其中一条DNA单链为例,在适宜的条件下,以P5’为引物、文库DNA单链为模板进行复制后,洗去文库DNA单链,就获得了一条附着在流通池表面的DNA单链(如图4)。
3)进行桥式PCR:
①新合成的附着在流通池表面的DNA单链弯曲,其3’端的P7’与流通池表面的P7互补结合,在适宜的条件下,以P7为引物,弯曲的DNA分子为模板进行复制(如图5)。
②附着在流通池表面的DNA单链再弯曲与P5’或P7互补结合,再进行复制(如图6)。
③25-28个循环后,原来散布在流通池表面的文库DNA单链变成了DNA簇,为保证同一簇内只有一种DNA单链,以及为了先从Rd1SP开始测DNA的序列,因此,先把P5’上的DNA链切割并洗脱,只保留P7上的DNA链,这样在flow cell表面就形成了数以亿计的DNA分子簇(cluster),每个cluster是具有数千份相同模板的单分子簇(如图7)。为什么要把DNA单链扩增为DNA簇呢?我们后面再回答。
3、测序:
1)加入能与Rd1SP互补结合的引物Rd1SP’,DNA聚合酶,以及特殊的dNTP(带有阻断基团,当被添加到DNA末端时可阻断延伸反应;4种dNTP带有4种不同的荧光基团可发出不同的荧光信号),在适宜的条件下,开始测序(如图8)。延伸(阻断基团使反应终止)→洗掉多余的dNTP→扫描添加到DNA末端的dNTP发出的荧光信号[后续再通过分析就能知道这个位置添加上的是哪种dNTP,这就是边合成边测序(sequencing by synthesis, SBS)技术]→切去荧光基团和阻断基团,再加入反应物,又可以继续延伸(这就是可逆终止技术)→洗掉......→扫描......→......,如此循环,把每个位置添加上的碱基都测出来,拼在一起就是这条DNA的序列。完成第一轮测序,洗去合成链。
看到这里关于为什么要把DNA单链扩增为DNA簇这个问题你应该已经有答案了——使单链的DNA复制转换为多条相同链的同步复制,从而放大光信号。但是随着复制的进行,cluster中各个DNA分子复制的协同性降低,因此,第二代测序的缺点就是读长短。
2)再加入Rd2SP’(如图9),测出index的序列,洗去。
3)再进行桥式PCR,这次保留P5’上的DNA链,进行第二轮测序,加入Rd2SP,这次从Rd2SP开始测DNA的序列,实现双端测序(如图10)。
小结:
①第二代测序技术又称为下一代测序技术、高通量测序技术。
②illumina测序是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明的玻璃表面(即flow cell),这些DNA片段经过延伸和桥式扩增后,在flow cell 上形成了数以亿计cluster,每个cluster是具有数千份相同模板的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的边合成边测序技术对待测的模板DNA进行测序
③优点:速度快、成本低、通量高、准确性高。缺点:读长短。
好了,测序技术的系列文章就更到这了,如果还有什么疑问,可以在评论下方提问。
本文首发于“生信大碗”公众号,转载请注明出处
—END—