降解组数据分析

降解组测序原理: AGO蛋白会在miRNA与mRNA互补区域的第10位碱基(从miRNA5’端开始数)处切割靶基因mRNA序列,靶基因序列分为5’片段和3’片段,其中3’片段由于含有游离的5’磷酸基团,会被RNA酶连接上5’Adaptor,5’片段和未被剪切的mRNA由于5端含有帽子结构无法被加上接头而不会进行测序,5’Adaptor序列中含有一种内切酶MmeI的识别位点,这个酶切割的位点是在识别结合位点的20-30bp后,切割合成的双链cDNA后加上3’Adaptor进行测序;降解组序列长度是50 nt左右,故测序得到的序列上有一段 3’接头序列。

图片来自360百科


联川新的建库流程好像不需要酶切(http://www.lc-bio.com/Techservices/show-133.html


用降解组数据预测phasiRNAs靶基因需要准备以下3个文件:
1、去除接头的降解组fasta序列文件(ID简短,不要有空格,文件名也不要有空格);
2、小RNA query文件(ID简短,不要有空格);
3、转录本序列作为靶基因库;
这3个文件的获取方式:

1、NCBI下载降解组数据文件;



将SRA格式的文件转换成fastq格式,以小RNA去接头的方法去除降解组数据的接头;降解组数据不需要去冗余;

2、根据课题需求获取含有miRNA靶位点的PHAS locus序列(靶位点在头或者尾),miRNA trigger PHAS locus产生phsiRNAs,其切割位点一般是靶位点的第10位碱基(miRNA的5’端开始计数);写脚本取出以21nt相位切割的方式产生的siRNAs,并筛选保留在sRNA数据中有表达丰度的siRNAs;

#脚本一:获取phasiRNAs序列的脚本 get_phasiRNAs_seq.py
#!/usr/bin/env python
# -*- coding:utf-8 -*-

seq = input('输入PHAS序列(靶位点所在序列):')
f = open('phasiRNA.seq','w')

complement = {'C': 'G', 'G': 'C', 'T': 'A', 'A': 'T'}
com_seq = ''
for i in list(seq):
    com_seq += complement[i]
    rev_com_seq = com_seq[::-1]
rc_seq = rev_com_seq
print(rc_seq,)

start1 = 12
start2 = 11
START1 = -15
START2 = -14
for i in range(20):
    end1 = start1 + 21
    phasiRNA1 = seq[start1:end1]
    start1 = end1
    print(phasiRNA1,i,'10th',file = f)
    end2 = start2 + 21
    phasiRNA2 = seq[start2:end2]
    start2 = end2
    print(phasiRNA2,i,'11th',file = f)
    END1 = START1 - 21
    siRNA1 = rc_seq[END1:START1]
    START1 = END1
    print(siRNA1,'-%d'%(i),'10th',file = f)
    END2 = START2 - 21
    siRNA2 = rc_seq[END2:START2]
    START2 = END2
    print(siRNA2,'-%d'%(i),'11th',file = f)
f.close()

python get_phasiRNAs_seq.py
#输入靶位点靶向的链序列
#脚本二:筛选在sRNA数据中有表达的phasiRNAs并以fasta格式输出 extract_abund.py
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import sys
File1 = sys.argv[1]
File2 = sys.argv[2]
collapsed_fasta = open(File1,'r')
siRNA_seq = open(File2,'r')
prefix1 = sys.argv[1].split("_")[0]
prefix2 = sys.argv[2].split(".")[0]
output_file = open ('%s_%s.seq'%(prefix1,prefix2), 'w')
Dict = dict()
i = 0
for line1 in collapsed_fasta:
    line1 = line1.rstrip()
    if not line1: break
    if '>' in line1:
        abund = line1.split('-')[1]
    else:
        Dict[line1] = abund
for line2 in siRNA_seq:
    if not len(line2):continue
    line2 = line2.rstrip()
    list2 = line2.split()
    for key, value in Dict.items():
        if key == list2[0]:
            i += 1
            print(">%d-%s-%s-%s"%(i,value,list2[1],list2[2]),file = output_file)
            print(key,file = output_file)
collapsed_fasta.close()
siRNA_seq.close()
output_file.close()

python extract_abund.py SRR4010495_mc.fa PtncRNAa.seq

3、Phytozome下载物种的转录组数据
用TBtools简化转录组序列ID-Fasta ID Simplifier

以上3个文件准备完成后,用CleaveLand进行靶基因预测

CleaveLand4.pl -e SRR4010497.fastq.trimmed -u PtncRNAa_phasiRNAs.fasta -n Ptrichocarpa_444_v3.1.cds_primaryTranscriptOnly.fa.sim -o plot/ > PtncRNAa_SRR4010497_PARE.txt
#产生的文件如下:
#SRR4010497.fastq.trimmed_dd.txt
#PtncRNAa_phasiRNAs.fasta_GSTAr.txt
#PtncRNAa_SRR4010497_PARE.txt
#Plot(含有预测T-plot图的pdf文件)

其中PtncRNAa_SRR4010497_PARE.txt文件含有一个siRNA对应的一个靶基因的详细信息,较为重要的信息有Alignment score和Category;
Alignment score计算原则: mismatch或bulge罚分为1, G-U摇摆罚分0.5,在小RNA 5‘端开始数第2-13碱基中所有罚分加倍;AS越小越可信。
Category的分类:
Category 4: 只有1个read的位置
Category 3: >1 read,但是低于或等于覆盖在转录本上的reads的平均深度
Category 2: >1 read,高于覆盖在转录本上的reads的平均深度,但不是最大的
Cateogry 1: >1 read,等于覆盖在转录本上的reads的最大深度,且最大值的位置不止1个
Cateogry 0: >1 read, 等于覆盖在转录本上的reads的最大深度,且最大值的位置只有1个
Category越小越可信。


以下为一个较为可信的靶位点:siRNA 14-43靶向切割转录本Potri.005G227300.1的第105位碱基,红点为切割位点。

用IGV查看T-plot中的每个切割位点是否有降解组reads

STAR --runThreadN 30 --runMode alignReads --genomeDir ./genomeIndex --readFilesIn SRR4010497.fastq.trimmed --outFileNamePrefix SRR4010497_ --alignIntronMax 20000 --alignMatesGapMax 25000 --outFilterMultimapNmax 50 --outSAMtype BAM SortedByCoordinate
samtools index SRR4010497_Aligned.sortedByCoord.out.bam


IGV查看切割产生reads的位置与T-plot的位置信息相对应,可以作为验证
提取该转录本的序列用Swissprot进行注释

CleaveLand使用注意事项:
https://github.com/MikeAxtell/CleaveLand4
1、转录组序列的ID行不要太长,不要有空格,转录组序列文件的文件名也不要有空格;
e.g. ">AT1G12345" is good, ">AT1G12345 | this is my favorite gene | it is awesome" is not.
2、降解组序列文件要去接头,去接头方式与小RNA数据一样,且降解组数据不需要去冗余,但听说联川现在的测序数据不用去接头了?
3、小RNA序列的ID行同样需要简短不含空格,DNA序列或者RNA序列都可以;
e.g. ">ath-miR169a" is good, ">ath-miR169a MIMAT0000200 Arabidopsis thaliana miR169a" is not.
4、如果在miRBase中下载了一个物种中同源miRNA基因的完全一致的成熟序列,先去除冗余;
5、不要用全基因组数据,用CDS转录本数据(考虑到假阳性及内存问题);
6、Query和转录本序列都不要含有简并碱基,含有简并碱基的转录本会被忽略;
7、Query的长度为15-26 nt;
8、CleaveLand4只会寻找比对小RNA第10位碱基切割的证据;目前还没有直接的证据能证明AGO蛋白能切割小RNA除第10位之外的位置。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容