链特异性建库

本文转载自:https://www.jianshu.com/p/8b177773ae38
RNA-seq基本流程

image

把RNA破碎成小片段,然后将RNA转变成一条cDNA,这一步需要用到反转录酶 reverse transcriptase (RT) 才能用RNA作为模板合成DNA。

不论是转录还是反转录都需要引物。通常如果我们要mRNA,那就可以用oligo-dT作为RT的引物,但是用它有两个问题,第一个是只能反转录那些有A尾巴的RNA,第二个问题是RT不是一个高度持续性的聚合酶,可能让转录提前发生终止,造成的结果就是3'端要比5'端reads富集,这样就会使得后续定量分析带来bias。

另一种常用的引物称为随机引物,随机引物的好处是没有A尾巴的诸如ncRNA也被留下了,而且不会存在明显的3'端偏差。但是很多研究也发现,所谓的随机引物根本就不随机,这也是测序结果中,通常前6个碱基的GC含量分布特别不均匀的原因。这几个碱基GC含量均匀很可能不是接头或者barcode那些东西,其实是Illumina 测序RT这一步的random hexamer priming 造成的bias,很多人在处理数据的时候会把这几个碱基去掉,其实很多时候真多RNA-seq数据去不去掉基本什么影响,不过开头如果有低质量的碱基倒是应该去掉。

随后是第二条链合成,这一步用是DNA聚合酶,以刚才和成的第一条链作为模板。

接下来就是在序列两端加上接头,加接头一方面是为了让机器可以识别这些序列,把这些序列固定;二是为了让多个样品可以同时上机,平摊每个样品的测序价格。双端测序为了让read从两边开始延伸,也需要在两端有所需的引物。

所谓双端测序,因为很多时候read的长度要短于insert,为了增加覆盖度于是就想出了从insert两端同时测序的办法。使得测序深度增加的同时也能够用来判断isoform方向。

对于illumina数据,有一条5-3的universal adaptor;还有一条是3-5的indexed adatpor,这条引物含有特意的barcode。需要说明的是,在双端测序中,如果insert 不是足够长,那么R1可能就会测到R2的引物,同时R2可能会测到R1引物的反向互补序列。


image

加了接头以后进行PCR的扩增。扩增后就开始测序,测序的过程如下图所示。


image

image

测序的基本思想是机器识别四种碱基发出的不同颜色的荧光,可以理解为一个flow cell 立着非常多序列,机器一层一层扫过去,通过识别荧光而判断这一层每个序列的碱基是什么。

链特异性测序
和普通的RNAseq不同,链特异性测序可以保留最初产生RNA的方向,普通建库方式为什么不行呢?因为传统建库方式通过两个接头的ligation把RNA已经变成了双链DNA,最后的文库中一部被测序的链对应正义链(sense strand),一部分被测序的链测是反义链。

链特异性建库方式有不止一种,对应到不同的软件又有不同的叫法,下面是几种称呼。要记住的是dUTP 测序方式的名字是fr-firstrand,也是RF。 至于具体的read方向接下来通过更详细的IGV截图说明问题。

image

image

链特异性建库方式(以目前最常用的dUTP为例,如下图所示)首先利用随机引物合成RNA的一条cDNA链,在合成第二条链的时候用dUTP代替dTTP,加adaptor后用UDGase处理,将有U的第二条cDNA降解掉。
https://upload-images.jianshu.io/upload_images/177622-d2cee6b7279efb66.png?imageMogr2/auto-orient/strip|imageView2/2/format/webp
这样最后的insert DNA fragment都是来自于第一条cDNA,也就是dUTP叫fr-firststrand的原因。对于dUTP数据,tophat的参数应该为–library-type fr-firststrand。这里的first-strand cDNA可不是RNA strand,在使用htseq-count 时,真正的正义链应该是使用参数-s reverse 得到的结果。
正正反反不清楚
说到链特异性测序,实在让人困惑的是各种链的概念,尤其是翻译成中文就更说不清了。

DNA 的正链和负链,就是那两条反向互补的链。参考基因组给出的那个链就是所谓的正链(forword),另一条链是反链(reverse)。但是这正反一定不能和正义链(sense strand)反义链(antisense strand)混淆,两条互补的DNA链其中一条携带编码蛋白质信息的链称为正义链,另一条与之互补的称为反义链。但是携带编码信息的正义链不是模板,只是因为它的序列和RNA相同,正义链也是编码链。而反义链虽然和RNA反向互补,但它可是真正给RNA当模板的链,因此反义链也是模板链。

总结两点

1、正义链(sense strand)= 编码链(coding strand)= 非模板链

2、forword strand 上可以同时有sense strand 和 antisense strand。因为这完全是两个不同的概念。

dUTP到底是怎么回事
从前文的一个图我们可以总结出dUTP方式测序R1文件中read1 的方向和基因的方向(正义链)是相反的,而R2文件中的read2 方向和基因的方向是相同的。

可以参考下面的两个igv文件bam截图。
下面这个图示按照igv 颜色选项中的read strand 方向进行区分,可以看到所有红色read都是在正链方向(注意正链不是正义链),而所有蓝色的read都是负链方向。下面基因的方向是正链方向,也就是和粉色的read同向的,如果你把鼠标放到随意一个粉色的read上,就能看到显示的信息是second of pair,也就是pair中的read2(R2);反之如果你在蓝色的read上面,就会显示信息是first of pair,也就是R1 。

总结,dUTP测序中pair read 中的read1(R1)和基因方向相反,read2(R2)和基因方向相同。

image

再看下面这张图
https://upload-images.jianshu.io/upload_images/177622-8d88e440355bf719.png?imageMogr2/auto-orient/strip|imageView2/2/format/webp
这张图展示了两个基因1和2,我们可以发现gene1的正义链就在正链上,而gene2的正义链其实是在反链上。看read情况,a,c两个read虽然针对正链负链而言方向一致,都是负链方向,但是如果把a是pair中的read1(first of pair ),而c是pair中的read2(second of pair)。也就是说,read方向一致,但一个是read1一个是read2,说明这两个read对应的基因一定是反向的。同样的道理,虽然b,d都是两个方向为负链的read,但是b其实是所在pair的read2(second of pair),而d是所在pair的read1(first of pair)。

再次强调,dUTP测序中pair read 中的read1(R1)和基因方向相反,read2和基因方向相同

当使用read strand来进行颜色区分的时候,每一个基因上两种颜色的分布应该相对均匀(也就是所谓的pair end)。

如果这个时候把颜色选项改为按照first of pair of strand来区分,会出现下图的变化。
https://upload-images.jianshu.io/upload_images/177622-37a185b87324569b.png?imageMogr2/auto-orient/strip|imageView2/2/format/webp
geng1的read全部变成了紫色,而gene2的read全部变成了粉色。

如果是非链特异性测序,在first of pair of strand模式下,同一个gene相关的read颜色也是明显混杂的。如下图:
https://upload-images.jianshu.io/upload_images/177622-fa296437d1301175.png?imageMogr2/auto-orient/strip|imageView2/2/format/webp
几个常用软件的设置
STAR mpping 时无需特别设置,但如果不是链特异性数据且下游分析要用到cufflinks 则需要增加参数 --outSAMstrandField intronMotif。为的是增加一个XS标签。

If you have stranded RNA-seq data, you do not need to use any specific STAR options. Instead, you need to run Cufflinks with the library option --library-type options. For example, cufflinks... --library-type fr-firststrand should be used for the standard dUTP protocol, including Illumina’s stranded Tru-Seq.

hisat2 --rna-strandness RF

目的也是给比对序列添加一个XS标签以区分方向,方面cufflinks使用。

For single-end reads, use F or R. 'F' means a read corresponds to a transcript. 'R' means a read corresponds to the reverse complemented counterpart of a transcript. For paired-end reads, use either FR or RF.
With this option being used, every read alignment will have an XS attribute tag: '+' means a read belongs to a transcript on '+' strand of genome. '-' means a read belongs to a transcript on '-' strand of genome.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容