本次学习主要基于生信星球的文章测序的世界,站在巨人的肩膀上学知识,嘻嘻~
第一代测序技术:DNA双脱氧链复制法
首先先复习下DNA复制的概念,它以 DNA 为模板,在 DNA 聚合酶的催化作用下,将四种游离的 dNTP 按照碱基互补配对原则合成新链(互补) DNA 的过程。而且DNA碱基对间是靠氢键连接,一条链上的相邻核苷酸是靠磷酸二酯键相连。
在DNA双脱氧链复制法中,采用一种特殊的碱基--ddNTP,由于其2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。由此获得的一个DNA片段的尾端核苷酸就知道了。
如上流程,DNA双脱氧链复制法就是分别在4个DNA合成反应体系中加入带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP)。
比如在含有ddATP合成反应体系中,其它三种碱基均为普通的原料,最后得到所有类型的不同长度的片段,就可以知道A碱基在合成链上所有的分布;如上图得到
TA
,TACTGA
两种片段,即可知在序列的第二与第六位为A碱基。
综合四个反应体系的结果就可以知道这条链的碱基序列,其互补链就是我们想要知道的DNA序列。该测序方法特点有
- 测序读长可达1000bp,准确性高达99.999%;
- 测序成本高,通量低,严重影响了其真正大规模的应用。
21世纪初的人类基因组计划(Human Genome Project, HGP)即是采用改良版的桑格(sanger)法进行对人体2.5万个基因的30亿个碱基对的测序
第二代测序技术
第二代测序技术称为高通量测序(High-ThroughputSequencing),又名下一代测序(Next Generation Sequencing NGS)。顾名思义,它们解决了第一代测序中的低通量的缺陷,同时大大降低测序成本,目前使用最广的是illumina公司的Solexa,Hiseq技术,其核心技术大致相同,介绍如下--
步骤一:构建文库
- 目的:在需要测序的DNA片段两端加上能够与测序仪配合的接头序列。
获得目标物种的所有mRNA(转库组测序),反转录成DNA,超声波将待测的DNA样本打断成小片段(200-500bp)。然后由中间向两边分别加上三个重要的片段--
- 三种片段从外到里介绍如下
(1)Terminal Sequence:与流动槽(Flow Cell)结合的区域,通常只有P5片段与流动槽P5'结合。
(2)Index序列,又称barcodes:index标签一般为8个碱基组成。
加标签的目的:一是由于一条通道(lane)上经常对多个样本DNA测序,每种样本的DNA都由一种index序列标记,这样就能根据已知的标签序列,分清所测得的样本序列了。二是在DNA两端会加入相同的标签,目的是为了在PE测序时,确定两次的结果是否来自同一个样本。(这里还要注意一下,如图,index1在右边;而index2在左边。在下面测序的介绍中就能理解了)
(3)测序引物结合位点(Read Sequencing Primer ):为Read1和Read2测序引物结合的区域。
步骤二:上样建簇
- 目的是为了把一个片段扩增成一个簇;在后期荧光效应放大,便于检测
-
在介绍前,先介绍下什么是流动槽 flow cell
如图,流动槽为有多条通道(lane)的厚玻璃片,内表面种有2种DNA引物(P5' 与 P7)
1、将构建好的文库中的待测序列事先配置好一定的浓度流经过槽,在特异的化学试剂作用下,样品序列P5 端与 lane 上的P5' 互补配对 ,生成新链。
- 此时通道上的P7端DNA引物暂时空着。
- 第一轮扩增模板(上样): P5--P7,然后被强碱试剂冲走;
-
第一轮结果:新合成的DNA链(P5'-P7')以共价键连接的方式结合在流动槽表面;
2、桥式扩增:加入缓冲溶液,互补链的P7' 弯曲成桥状 和 lane 上的P7互补
- 第二轮扩增模板(弯曲):P7'-P5'
-
第二轮结果:P7--P5 (数量扩大一倍)
-
大约35个循环后,每个DNA片段都将在各自的位置上集中成束/簇(cluster),大概有5k到10k个。
-
利用甲酰胺基嘧啶糖苷酶(Fpg)切掉lane 上P5 连接的链,只留下了与lane P7连接的链(Forward Strand)。注意此时的P7--P5,即我们的样品DNA链。
为了防止后续测序过程中不必要的DNA延伸,对流动槽上结合的所有DNA分子的3’端(最上端)进行封闭。
步骤三:测序
1、将Read 1测序引物加入流动槽,使其与待测DNA分子的接头序列结合。
2、加入特殊的四种核苷酸原料dNTP,有如下特点:
- 3'羟基被叠氮基团替代。因此类似ddNTP,结合后就会中断下一个NTP的接合;但是可以改为正常NTP;
-
四种dNTP分别带有四种荧光基团,激发四种不同的荧光。
3、在第一个dNTP添加到合成链上后,中断继续合成,将所有未使用的游离dNTP和DNA聚合酶洗脱掉;然后加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号,计算机将光学信号转化为测序碱基;
4、加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,继续第二个碱基的合成如此重复直至所有链的碱基序列被检测出,得到了Forward Strand序列,然后read product被冲掉。
5、Index1 primer(引物)和链上的index1 互补配对,进行Index1的检测(为read1的标签)
6、原始Forward strand(P7---P5)桥式互补,得到新的Reverse Strand(P5'---P7'),然后除去测完的Forward strand。
7、然后以上述同样的方法分别进行Index2 与 read2的测序。
以上是常见的双末端(Paired-end,PE)测序方法。对于过程中index2的测序还有些疑惑,暂且存疑!此外还有简单的单端(Single-Read)测序,操作就比较简单,测一遍即可。
从测序过程来看,其核心与第一代的sanger法大致相同,都采用了特殊的NTP,中断反应。不过第二代技术中采用了边合成边测序的方法(sequence by synthesis, SBS)
步骤四:后期图像处理
1、扫描出来的最原始的文件,它的格式是“.tiff”文件,记录了每个像素点上采集到的光强度。特点是完全无损,保留了所有的原始信息。但同时数据量太大,既不便于数据的传输,也不便于数据的存储,所以,测序仪在测序过程中,只把tiff文件作为中间文件。最后是把这个tiff文件删掉的。
2、计算机软件就把图像文件转化成光点文件,叫“.BCL”文件(Base calling),即每一个簇的光点,并记录其位置信息(在哪条lane的哪个tile里,以在tile里的坐标信息)与光强信息(这个光点当中“红、黄、蓝、绿”四种光的对应的光强。)。
tile是lane通道里划分的许多方块区域,照相也是根据tile来处理的。
光强信息里,最理想的情况是一个簇里只显示一种颜色,但由于存在误差,会有其它颜色的干扰。主要为Phasing与Prephasing两种误差,如下介绍:
3、根据荧光信息,识别对应碱基;然后进行read测序质量检测评价,主要是一个Quality Score(Q值)的打分,来衡量这个碱基被误判的可能性。
- 计算方法:可能性换算出以10为底的对数,再乘以“-10”得到的数字;
比如Q30,就是指一个碱基的可靠性达到99.9%;Q40,就是指一个碱基的可靠性是99.99% - 储存形式:Q值加上33,再用ASCII码表转换成一个字母。
做完上述这些,最终就得到了Fastq文件,其包含了测序中所得到的所有read片段的目录信息、序列信息(关键),Q值信息。基于此数据,就可以正式开始mRNA转录组分析了。
据我了解,其实测序工作是交给公司直接做就行了,一般会直接给我们测好的fastq文件。但是对于其中的一些基础知识还是要明白一些为好。以上是我学习整理的一些测序知识,如有错误,恳请指正。部分图片来自网上,侵删~
关于测序深度与测序覆盖率
在之前学习过程中,遇到上述两个概念,感觉还蛮重要的,补充到这里算是一个彩蛋吧~
1、测序深度(Sequencing Depth)
- 指测序得到的总碱基数(bp)与所测物种基因组大小的比值(相当于测了几遍),其是评价测序量的重要指标之一;
举一例子来说:测序产生了1000条读段(read),每条读段的长度为50bp,所测物种的基因组大小为10000bp,那么测序深度为1000*50/10000=5X;
- 一般来说,测序深度越深越好,当然还需考虑一个成本的问题。
- 全基因组测序,一般测序深度为30X以上对检测基因组变异的可靠性会有很大帮助;
- 测序产生的错误率或假阳性结果会随着测序深度的提升而下降。
2、测序覆盖度(Sequencing Coverage)
- 指测序数据匹配到参考基因组上后,能够覆盖基因组的区域比率。
举一例子来说:测序产生了1000条读段(read),每条读段的长度为50bp,所测物种的基因组大小为10000bp,测序读段匹配到参考基因组后能够覆盖9000bp的参考基因组,那么测序覆盖度就为9000/10000=90%。
- 因为基因组有些区域重复序列较复杂或测序难以捕获到,那么这些区域可能就不会被测序读段所覆盖。