RNA-seq学习：No.2测序基础知识

本次学习主要基于生信星球的文章测序的世界，站在巨人的肩膀上学知识，嘻嘻~

第一代测序技术：DNA双脱氧链复制法

首先先复习下DNA复制的概念，它以 DNA 为模板，在 DNA 聚合酶的催化作用下，将四种游离的 dNTP 按照碱基互补配对原则合成新链（互补） DNA 的过程。而且DNA碱基对间是靠氢键连接，一条链上的相邻核苷酸是靠磷酸二酯键相连。

DNA结构

在DNA双脱氧链复制法中，采用一种特殊的碱基--ddNTP，由于其2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应。由此获得的一个DNA片段的尾端核苷酸就知道了。

第一代DNA测序技术

如上流程，DNA双脱氧链复制法就是分别在4个DNA合成反应体系中加入带有放射性同位素标记的ddNTP（分为：ddATP,ddCTP,ddGTP和ddTTP）。

比如在含有ddATP合成反应体系中，其它三种碱基均为普通的原料，最后得到所有类型的不同长度的片段，就可以知道A碱基在合成链上所有的分布；如上图得到TA，TACTGA两种片段，即可知在序列的第二与第六位为A碱基。

综合四个反应体系的结果就可以知道这条链的碱基序列，其互补链就是我们想要知道的DNA序列。该测序方法特点有

测序读长可达1000bp，准确性高达99.999%；
测序成本高，通量低，严重影响了其真正大规模的应用。

21世纪初的人类基因组计划（Human Genome Project, HGP）即是采用改良版的桑格（sanger）法进行对人体2.5万个基因的30亿个碱基对的测序

第二代测序技术

第二代测序技术称为高通量测序(High-ThroughputSequencing)，又名下一代测序(Next Generation Sequencing NGS)。顾名思义，它们解决了第一代测序中的低通量的缺陷，同时大大降低测序成本，目前使用最广的是illumina公司的Solexa，Hiseq技术，其核心技术大致相同，介绍如下--

步骤一：构建文库

目的：在需要测序的DNA片段两端加上能够与测序仪配合的接头序列。

获得目标物种的所有mRNA（转库组测序），反转录成DNA，超声波将待测的DNA样本打断成小片段（200-500bp）。然后由中间向两边分别加上三个重要的片段--

接头序列

三种片段从外到里介绍如下

（1）Terminal Sequence：与流动槽（Flow Cell）结合的区域，通常只有P5片段与流动槽P5'结合。

Terminal Sequence

（2）Index序列，又称barcodes：index标签一般为8个碱基组成。
加标签的目的：一是由于一条通道（lane）上经常对多个样本DNA测序，每种样本的DNA都由一种index序列标记，这样就能根据已知的标签序列，分清所测得的样本序列了。二是在DNA两端会加入相同的标签，目的是为了在PE测序时，确定两次的结果是否来自同一个样本。（这里还要注意一下，如图，index1在右边；而index2在左边。在下面测序的介绍中就能理解了）

Index

（3）测序引物结合位点(Read Sequencing Primer )：为Read1和Read2测序引物结合的区域。

测序引物结合位点

步骤二：上样建簇

目的是为了把一个片段扩增成一个簇；在后期荧光效应放大，便于检测
在介绍前，先介绍下什么是流动槽 flow cell

流动槽

如图，流动槽为有多条通道（lane）的厚玻璃片，内表面种有2种DNA引物（P5' 与 P7）

种有大量DNA引物片段的流动槽通道

1、将构建好的文库中的待测序列事先配置好一定的浓度流经过槽，在特异的化学试剂作用下，样品序列P5 端与 lane 上的P5' 互补配对，生成新链。

此时通道上的P7端DNA引物暂时空着。
第一轮扩增模板（上样）: P5--P7，然后被强碱试剂冲走；
第一轮结果：新合成的DNA链（P5'-P7'）以共价键连接的方式结合在流动槽表面；

2

2、桥式扩增：加入缓冲溶液，互补链的P7' 弯曲成桥状和 lane 上的P7互补

第二轮扩增模板（弯曲）：P7'-P5'
第二轮结果：P7--P5 （数量扩大一倍）

5
大约35个循环后，每个DNA片段都将在各自的位置上集中成束/簇（cluster），大概有5k到10k个。

6
利用甲酰胺基嘧啶糖苷酶（Fpg）切掉lane 上P5 连接的链，只留下了与lane P7连接的链（Forward Strand）。注意此时的P7--P5，即我们的样品DNA链。

7

为了防止后续测序过程中不必要的DNA延伸，对流动槽上结合的所有DNA分子的3’端（最上端）进行封闭。

步骤三：测序

1、将Read 1测序引物加入流动槽，使其与待测DNA分子的接头序列结合。

2、加入特殊的四种核苷酸原料dNTP，有如下特点：

3'羟基被叠氮基团替代。因此类似ddNTP，结合后就会中断下一个NTP的接合；但是可以改为正常NTP；
四种dNTP分别带有四种荧光基团，激发四种不同的荧光。
3、在第一个dNTP添加到合成链上后，中断继续合成，将所有未使用的游离dNTP和DNA聚合酶洗脱掉；然后加入激发荧光缓冲液，用激光激发荧光信号，光学设备记录荧光信号，计算机将光学信号转化为测序碱基；

捕获通道荧光照片

4、加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基，继续第二个碱基的合成如此重复直至所有链的碱基序列被检测出，得到了Forward Strand序列，然后read product被冲掉。

9

5、Index1 primer（引物）和链上的index1 互补配对，进行Index1的检测（为read1的标签）
6、原始Forward strand（P7---P5）桥式互补，得到新的Reverse Strand（P5'---P7'），然后除去测完的Forward strand。

7、然后以上述同样的方法分别进行Index2 与 read2的测序。

以上是常见的双末端（Paired-end，PE）测序方法。对于过程中index2的测序还有些疑惑，暂且存疑！此外还有简单的单端（Single-Read）测序，操作就比较简单，测一遍即可。
从测序过程来看，其核心与第一代的sanger法大致相同，都采用了特殊的NTP，中断反应。不过第二代技术中采用了边合成边测序的方法（sequence by synthesis, SBS）

步骤四：后期图像处理

1、扫描出来的最原始的文件，它的格式是“.tiff”文件，记录了每个像素点上采集到的光强度。特点是完全无损，保留了所有的原始信息。但同时数据量太大，既不便于数据的传输，也不便于数据的存储，所以，测序仪在测序过程中，只把tiff文件作为中间文件。最后是把这个tiff文件删掉的。
2、计算机软件就把图像文件转化成光点文件，叫“.BCL”文件（Base calling），即每一个簇的光点，并记录其位置信息（在哪条lane的哪个tile里，以在tile里的坐标信息）与光强信息（这个光点当中“红、黄、蓝、绿”四种光的对应的光强。）。

tile是lane通道里划分的许多方块区域，照相也是根据tile来处理的。
光强信息里，最理想的情况是一个簇里只显示一种颜色，但由于存在误差，会有其它颜色的干扰。主要为Phasing与Prephasing两种误差，如下介绍：

image.png

3、根据荧光信息，识别对应碱基；然后进行read测序质量检测评价，主要是一个Quality Score（Q值）的打分，来衡量这个碱基被误判的可能性。

计算方法：可能性换算出以10为底的对数，再乘以“-10”得到的数字；
比如Q30，就是指一个碱基的可靠性达到99.9%；Q40，就是指一个碱基的可靠性是99.99%
储存形式：Q值加上33，再用ASCII码表转换成一个字母。

做完上述这些，最终就得到了Fastq文件，其包含了测序中所得到的所有read片段的目录信息、序列信息（关键），Q值信息。基于此数据，就可以正式开始mRNA转录组分析了。

据我了解，其实测序工作是交给公司直接做就行了，一般会直接给我们测好的fastq文件。但是对于其中的一些基础知识还是要明白一些为好。以上是我学习整理的一些测序知识，如有错误，恳请指正。部分图片来自网上，侵删~

关于测序深度与测序覆盖率

在之前学习过程中，遇到上述两个概念，感觉还蛮重要的，补充到这里算是一个彩蛋吧~

1、测序深度（Sequencing Depth）

指测序得到的总碱基数（bp）与所测物种基因组大小的比值（相当于测了几遍），其是评价测序量的重要指标之一；

举一例子来说：测序产生了1000条读段（read），每条读段的长度为50bp，所测物种的基因组大小为10000bp，那么测序深度为1000*50/10000=5X；

一般来说，测序深度越深越好，当然还需考虑一个成本的问题。
全基因组测序，一般测序深度为30X以上对检测基因组变异的可靠性会有很大帮助;
测序产生的错误率或假阳性结果会随着测序深度的提升而下降。

2、测序覆盖度（Sequencing Coverage）

指测序数据匹配到参考基因组上后，能够覆盖基因组的区域比率。

举一例子来说：测序产生了1000条读段（read），每条读段的长度为50bp，所测物种的基因组大小为10000bp，测序读段匹配到参考基因组后能够覆盖9000bp的参考基因组，那么测序覆盖度就为9000/10000=90%。

因为基因组有些区域重复序列较复杂或测序难以捕获到，那么这些区域可能就不会被测序读段所覆盖。

最后编辑于：2021.12.28 11:44:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342