用到的软件是TargetFinder,软件的具体安装见:https://github.com/carringtonlab/TargetFinder。它依赖于fasta-35。
The FASTA package - protein and DNA sequence similarity searching and alignment programs,下载链接:http://faculty.virginia.edu/wrpearson/fasta/fasta33-35/
。下载解压之后,fasta-35版本的安装看README文件
To make the standard FASTA programs:
cd src
make -f ../make/Makefile.linux_sse2 all
The executable programs will then be found in ../bin
注意TargetFinder只能用fasta-35,虽然github上面有fasta36: https://github.com/wrpearson/fasta36
如何使用?
举个栗子
targetfinder_threads.pl -f sRNA.fa -d ~/ref/Aegilops_tauschii.Aet_v4.0.cds.all.fa -t 8 -p gff -o tmp.predicted_targets3.txt
#-f: fasta格式的小RNA序列文件
#-d: 候选序列,此处是cds序列
#-t: 设置线程
#-p: 设置输出格式,还有:classic、table等
#-o: 输出结果文件
less tmp.predicted_targets3.txt | grep "^No" -v | sort -k1,1 | less > predicted_targets3.txt
rm -f tmp.predicted_targets3.txt
此外还有两个参数:-c和-r。-c表示预测分值,默认是4,越小越好。-r就比较纠结了。
我目前的认识是这样的:
如果候选序列为带有正负链信息的cds序列,比如
#由bedtools提取,且用到gff的第七列
>chr1D:206957121-206957331(+)
>chr1D:206957148-206957331(+)
再比如
>AET4Gv20696400.3 cds chromosome:Aet_v4.0:4D:462202382:462208036:-1 gene:AET4Gv20696400 gene_biotype:protein_coding transcript_biotype:protein_coding
关于-r参数,加不加有很大区别:不加只在本链上查找结合位点;加了后还会在本链的互补链上查找。应该是不加的!
然而,如果你的候选序列是从参考基因组上直接截下来的,不带有任何正负链信息,则必须加上-r,如果不加则不会得到任何结果。这时如果想同时预测候选序列的本链和互补链该怎么办呢?我的解决办法是先用软件(seqkit
)求出候选序列的反向互补序列,再添加到原来的候选序列文件中,运行时参数-r也加上。
结果
AET0Gv20018300.5_cds_supercontig:Aet_v4.0:jcf7190000000435:20646:21465:1 targetfinder rna_target 596 612 4 + . smallRNA=6;target_seq=GGGAGAG-AGAGGAUUGA;base_pairs=:: :::: ::::::.:::;miR_seq=CCAUCUCGUCUCCUGACU
AET0Gv20026400.1_cds_supercontig:Aet_v4.0:jcf7190000000724:142215:142925:-1 targetfinder rna_target 66 82 4 + . smallRNA=7;target_seq=GCAAAGG-UAUCUCGGCG;base_pairs=:::: :: ::::::::: ;miR_seq=CGUUGCCUAUAGAGCCGA
网页版工具
其实预测植物小RNA靶标的软件和网站挺多的,我还用过一款网页工具,叫psRNATarget,体验不错。
我的疑惑
用了一些软件和网站后,发现不同工具预测出来的靶基因交集很少,不知道该信哪个。之前还看过一篇评估不同预测软件的软文(https://mp.weixin.qq.com/s/o53imDFTZIELy6Z2--Gg5w),看完更是不知所措,似乎每个预测软件的效果都不太好,真阳性率很低。
或许正是因为这个原因,才需要做降解组吧~