生信分析学习笔记 - RNAseq (二) 双端测序与单端测序

声明:本文部分内容和部分图片来源于网络。本文为生信小白学习笔记,不能保证专业名词和内容全部正确或权威。       

       下图为某一条RNAseq从数据预处理,序列回帖到数据可视化的工作流程,包含了较多的软件(Linux环境运行)和若干个包(R语言环境运行),本系列将按下图,对每一个步骤进行学习和理解。


某RNAseq分析流程

问题:

1.   单端测序和双端测序是什么意思?

2.   双端测序的read1和read2有什么关系?在后续的拼接和比对时是如何参与的?

3.   对比单端测序,双端测序的优势是什么?

Illumina测序工作原理

        Illumina测序流程(宣传动画)包括四个主要的步骤:样品制备,cluster生成,测序和数据分析。

        样品制备的方法有很多,所有的制备方法都是在DNA片段的末端加上接头(adaptor),通过简单的循环扩增,引入其他的序列模块。如,测序引物结合位点序列,标签序列(index),以及于流动槽上的oligo(寡核苷酸)结合的互补区域。

        Clustering(簇生成)是指每个片段分子被等温扩增的过程。Flowcell(流动槽)是一块带有通道的玻片。每条通道的内表面都包被着两种不同类型的oligo(寡核苷酸序列)。杂交是由这两种oligo(寡核苷酸序列)的其中一种开始的。这种oligo与片段的一条链上的接头区域互补,聚合酶产生已杂交片段的互补序列,接下来双链分子被变性,原始DNA链模板被洗掉,通过桥式扩增,可以将这些链进行克隆扩增。在这个过程中,目标片段DNA链弯曲后,接头区域与flowcell上第二种类型的oligo杂交。聚合酶产生互补链,形成双链桥结构。这个桥经过变性,产生该分子的两条单链拷贝,均固定在Flowcell上。该过程重复无数遍,且数百万个Cluster同时发生,以使所有片段被扩增。在桥式扩增后,反向链被切割并洗掉,只留下正向链。3‘末端被封闭以避免不必要的引物结合和扩增。

       测序是从第一条测序引物延伸并产生第一条read(正向序列)开始的。在每个循环中,带有荧光标记的碱基竞争性地结合在不断延长的链中,每次只能结合上一个与模板序列互补的碱基。在每次碱基集合时,用光源激发Clusters发出特异的荧光信号,通过检测不同信号,可知正在合成的序列碱基排序。这个过程被称为边合成边测序技术。循环数决定了序列碱基读取的长度(是指每次读取的长度可能少于原链长度?)。每次读取的荧光波长以及信号强度共同决定了碱基识别。 对于一个特定的簇,所有相同的链被同时读取。在大规模并行检测的过程中,数亿个簇被测序。在正向序列测序完成后,测序产物被洗掉。在这个步骤中,引入index1测序引物,其与模板杂交,与正向测序过程相似,生成index1序列。在index序列完成后,测序产物被洗掉,且模板的3’末端的保护被去除。模板现在又发生弯曲,并与flowcell上的另一个oligo结合。index2的读取方式和index1相同。聚合酶使DNA链沿着第二条oligo链延伸形成双链桥。这个双链DNA随后被单链化3‘末端被封闭。原始的正向链被切割并洗掉,只留下反向链。

       第二条read(反向序列)的测序是从引入它的测序引物开始的。反向测序步骤与先前的正向步骤相同,反应反复进行。知道达到所需的测序长度。反向测序产物被洗掉。整个过程产生了数百万条序列,包含了所有片段。独特的index可帮助区分文库制备过程中混合的多个测序样本,可分离混合样品文库的序列。对每一个样品,每个碱基序列相似的片段会被聚类分在一起。正向和反向序列配对并连接起来,形成连续的序列。将这些连续的序列再与参考基因序列组比对,已检测鉴定变异。

       双端测序可以用来解决那些比对结果不唯一的测序片段。

单端测序与双端测序

       两者的区别存在于测序文库的构建方法上。

(作者:wangchuang2017 链接:https://www.jianshu.com/p/5c238ea7c52f)

       单端测序:Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。该方式建库简单,操作步骤少,常用于小基因组、转录组、宏基因组测序。

       双端测序:双端测序在DNA片段两端都加上接头,进行第一次测序,洗去模板链,将模块再原位置进行扩增,进行第二轮测序。

双端测序对比单端测序的优势

       该优势聚焦于测序中对测序长度的影响。Illumina测序的长度较短,单端测序对于不同位置重复出现的序列片段识别出相同的信息,这导致将该序列回帖至参考序列中时,导致一定的误差。而双端测序中,不同读段间的距离已知,即使对于重复出现的序列,双端测序也可推断出不同序列出现的位置,大大减少了序列回帖的误差。双端测序的序列信息往往可以得到较好的组装结果。

       另一个原因,所有的reads只能按照一个方向进行读取,这会导致测序的质量会随着读取长度的增加而下降。对于单端测序,其下游测序质量就会较低,而双端测序会从两个方向读取超过待测序列的一半。再根据两个序列重合部分进行拼接,读取序列的质量会由于单端测序的结果。

       在双端测序得到的fastQ文件read1和read2中,均具有相同的ID,并在ID后加/1 或/2 进行区分。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容