简单全面的 Keth-seq 数据分析教程

前言

  今天来跟大家分享一个比较少见的数据类型分析——Keth-seq。不知道大家第一眼看到这个类型是什么感受,反正我的感受就是还有这种数据类型,看来还是在下知识浅薄孤陋寡闻了。不过,不知道没有关系,咱可以学习啊!一顿搜索过后,还是能找到一些资料的,经过一番折腾数据分析流程终于走通了。下面来跟大家做一个分享。
  RNA分子具有折叠成复杂结构的内在能力,这些结构对调节许多生物过程非常重要,包括转录、翻译、加工和降解。而对于RNA二级结构的分析可使用icSHAPE(Selective 2′ Hydroxyl Acylation analyzed by Primer Extension)来流程分析,该流程的原理是通过使用2-甲基烟酸咪唑在烟酸环(NAI-N3)上添加叠氮化物,来修饰未配对的RNA核苷酸序列。然后,可以通过生物素来进一步来富集被修饰后的片段以便后续测序分析。Kethoxal (1,1-dihydroxy-3-ethoxy-2-butanone) 在温和的条件下能够与单链RNA (ssRNA)中的鸟嘌呤反应,并诱导逆转录(RT)的停止。与icSHAPE方法类似,azido-kethoxal (N3-kethoxal, 1) 通过特异性地标记ssRNA链中鸟嘌呤链接处的N1和N2位置,然后结合深度测序的方法来探测RNA二级结构,即Keth-seq。由于Keth-seq方法构建的文库与icSHAPE类似,因此,同样可以使用icSHAPE流程的脚本来处理Keth-seq的测序数据。
  上面一段文字简单描述了Keth-seq的原理以及该方法的分析目的。简单来说就是Keth-seq能够标记RNA链中没有配对的G碱基,然后通过检测这些G碱基的位置达到探测RNA二级结构的目的。废话就不多说了,下面来说一下具体的数据分析过程。

分析流程

下图是分析流程的示意图:

数据处理

1、Collapsing the reads
使用流程的 readCollapse.pl 脚本来完成这一步骤,默认参数即可。完全相同序列的读码被标记为PCR重复,并在后续分析前会被过滤掉。这里强调一下,输入的fastq文件需要提前解压好,不能是gz压缩格式。代码如下所示:

readCollapse.pl  -U sample.fastq -o sample_rmdup.fq -f sample_collapse.fa

2、去除接头序列
使用流程的 trimming.pl 脚本来删除序列中的 adapters 以及低质量碱基。代码如下所示:

trimming.pl -U sample_rmdup.fq -o sample_trimmed.fq -l 13 -t 0 -c phred33 -a adapter.fa -m 0

3、比对
首先,将所有的reads比对到核糖体RNA上,保留未必对上的reads以达到去除rRNA的目的,然后将保留的reads比对参考基因组上。比对使用的软件是 Bowtie。代码如下所示:

bowtie --sam-nohead --quiet -p 5 -S --un sample_rmrrna.fq sample_trimmed.fq sample_rmrna.sam

bowtie --quiet -p 5 -S genome sample_rmrrna.fq sample.sam

4、计算RT信号
使用流程的 calcRT.pl 脚本来计算RT-stop信号。代码如下所示:

calcRT.pl -i sample.sam -o sample.rt -r sample.rpkm -c 5

5、合并RT信号(可选步骤)
如果有重复的情况下,可使用流程的 combinertreplates .pl 脚本来合并重复间的RT信号。代码如下所示:

combineRTreplicates.pl -i sample_rep1.rt:sample_rep2.rt -o sample_combine.rt

6、标准化RT信号
使用流程的 normalizeRTfile.pl 脚本来分别对处理组和对照组样品进行RT信号的标准化。代码如下所示:

normalizeRTfile.pl -i sample_combine.rt -o sample_normed.rt -m mean:vigintile2 -d 32 -l 32

7、计算 reactivity score
通过使用流程的 calcEnrich.pl 脚本比较处理样品(前景)和对照样品(背景),然后计算每个转录本中每个核苷酸的 reactivity score 来作为RNA结构的评估得分。代码如下所示:

calcEnrich.pl -f sample_case_normed.rt -b sample_control_normed.rt -o sample_enrich.out -w factor5:scaling1 -x 0.25 -y 10

8、过滤 reactivity score
最后,为了获得高质量的 reactivity score,使用流程的 filterrich .pl 脚本对低质量的结果进行过滤。代码如下所示:

filterEnrich.pl -i sample_enrich.out -o sample_enrich_filter.out -t 200 -T 2 -s 5 -e 30

为了大家能有一个更为直观的感受,我这里展示一下最终得到的文件内容,如下所示:

ENSMUST00000117219.2    1545    2031.080251985  NULL    NULL    NULL    NULL    NULL    NULL    0.337   1.000   0.273   0.145   0.243   0.278   0.103   0.092   0.03
ENSMUST00000221295.2    556     187.220512465203        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000025271.17   1362    619.179886358961        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000133910.3    849     169.099803070766        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000119383.2    555     189.536742599081        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000153590.2    834     347.609558826383        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000031243.15   1410    107.555258591905        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000235468.2    593     84.462331623428 NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000088336.3    294     667.237103151603        NULL    NULL    NULL    NULL    NULL    NULL    0.084   0.240   0.230   0.444   0.340   0.070   0.290   0.12
ENSMUST00000172132.10   1607    131.447561137884        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000119822.2    798     291.101195382799        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000077915.10   364     259.473892898157        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000117557.8    2019    162.738982819819        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000074353.6    495     179.75851041931 NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000173844.8    382     276.731461610335        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000082402.1    1545    7076.29904084836        NULL    NULL    NULL    NULL    NULL    NULL    1.000   1.000   0.613   0.254   0.900   0.535   0.043   0.34
ENSMUST00000118499.2    750     213.193368235271        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000129380.2    845     1245.55315764876        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000117757.9    1273    134.028421025852        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000173253.2    979     180.173196018338        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000119790.2    793     172.560595436876        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000016463.4    1240    245.385465919021        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000099371.5    276     172.660742860779        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000136346.2    260     139.892599922161        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000106599.8    457     190.224308764774        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000082419.1    519     1088.91055899109        NULL    NULL    NULL    NULL    NULL    NULL    0.000   0.000   0.106   0.450   0.000   0.409   0.123   0.19

列说明:
第一列:转录本的Ensembl ID;
第二列:转录本的长度;
第三列:FPKM值;
第四-最后;每个碱基的 reactivity score。

  其实前面的1-8步可以使用icSHAPE流程一步来完成,前面之所以展示分步式是想大家可以了解流程中都做了哪些数据处理,一键分析前需要在“icshape.conf”文件配置好流程需要的软件和参考基因等信息,一键式分析代码如下所示:

icSHAPE_pipeline.pl -i notreat1.fastq:notreat2.fastq -t kethrep1.fastq:kethrep2.fastq -o icshape_output -c icshape.conf

9、结果可视化
可利用 IGV 软件来展示Keth-seq的结果以显示RNA的结构信号。在此之前,需要得到可以用来展示的数据。处理数据的过程如下所示:

enrich2Bedgraph.pl -i sample.out -o sample.bdg -g gtf -a fasta

sort -k1,1 -k2,3n sample.bdg >sample_sorted.bdg

uniqueTrack.pl sample_sort.bdg sample_uniq.bdg

cut -f1-4 sample_uniq.bdg | grep -v NULL > sample_sim.bdg

bedGraphToBigWig sample_sim.bdg genome.chr.size sample_sim.bw

最后可用得到的bigwig文件在IGV中进行可视化展示,这里展示一个效果图,如下所示:

最后

  使用icSHAPE流程的脚本来处理 Keth-seq 的数据还是相当快捷方便的。今天就分享到这里,后面附上了一些 Keth-seq 相关的参考文献,需要的朋友可以看一看。

参考文献

[1] X Weng, Gong J , Chen Y , et al. Keth-seq for transcriptome-wide RNA structure mapping[J]. Nature Chemical Biology, 2020, 16(5):1-4.
[2] Li P, Shi R, Zhang Q C. icSHAPE-pipe: A comprehensive toolkit for icSHAPE data analysis and evaluation[J]. Methods, 2019.
[3] Spitale, R. C. et al. Structural imprints in vivo decode RNA regulatory mechanisms. Nature 519, 486–490 (2015).
[4] R.C. Spitale, R.A. Flynn, Q.C. Zhang, P. Crisalli, B. Lee, J.W. Jung, H.Y. Kuchelmeister, P.J. Batista, E.A. Torre, E.T. Kool, H.Y. Chang, Structural imprints in vivo decode RNA regulatory mechanisms, Nature 519 (7544) (2015) 486–490.
[5] Xu, Z. & Culver, G.M. In Methods in Enzymology; Biophysical, Chemical, and Functional Probes of Rna Structure, Interactions and Folding, Pt A (ed. Herschalag, D.) Vol 468, 47–165 (Academic Press, 2009).
[6] Weng X , Gong J , Chen Y , et al. Keth-seq for transcriptome-wide RNA structure mapping[J]. Nature Chemical Biology, 2020, 16(5):1-4.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343