barrnap是BAsic Rapid Ribosomal RNA Predictor(基础rRNA快速预测其)简写。barrnap可以预测细菌bacteria (5S,23S,16S), 古菌archaea (5S,5.8S,23S,16S), 多细胞生物线粒体metazoan mitochondria (12S,16S) 和真核生物eukaryotes (5S,5.8S,28S,18S)基因组中rRNA基因的位置。barrnap以DNA fasta序列作为输入,输出gff3结果文件。使用nhmmer/hmmer3.1进行DNA/RNA比对。支持多线程加速计算。
Github地址:https://github.com/tseemann/barrnap
conda安装
conda install -c bioconda -c conda-forge barrnap
git安装
git clone https://github.com/tseemann/barrnap.git
cd barrnap/bin
./barrnap --help
git下载内容:
测试:
/bin/barrnap \
--kingdom bac \
--threads 4 \
--outseq test.fa \
examples/small.fna > test.gff3
[barrnap] ERROR: Can not find required 'bedtools' in PATH
安装依赖:bedtools
conda activate r403
conda install bedtools
bedtools --help
运行barrnap
/bin/barrnap \
--kingdom bac \
--threads 4 \
--outseq test.fa \
examples/small.fna > test.gff3
--outseq: 保存结果序列; > 输出汇总表
--kingdom: 物种界 euk bac arc mito
--evalue default '1e-06'
结果
cat test.gff3
##gff-version 3
P.marinus barrnap:0.9 rRNA 353314 354793 0 + . Name=16S_rRNA;product=16S ribosomal RNA
P.marinus barrnap:0.9 rRNA 355464 358334 0 + . Name=23S_rRNA;product=23S ribosomal RNA
P.marinus barrnap:0.9 rRNA 358433 358536 9.6e-07 + . Name=5S_rRNA;product=5S ribosomal RNA
从gff文件中提取rRNA位置信息
## 抽提rna位置信息
plat="bgi"
plat="illumina"
touch barrbap_${plat}_length.txt
echo -e "id\tstart\tend\ttype" >> barrbap_${plat}_length.txt
for i in `ls ./gff`;
do
base=${i%.gff3}
cat ./gff/$i | sed 's/=/\t/g' | sed 's/;/\t/g' | grep -v '^#' | awk -F"\t" -v tmp=$base '{printf("%s\t%s\t%s\t%s\n", tmp, $4, $5, $10)}' >> barrbap_${plat}_length.txt
echo -e "\033[32m$i done...\033[0m"
done
id start end type
AF04-12 48 153 5S_rRNA
AF04-12 243 3080 23S_rRNA
AF04-12 3514 5037 16S_rRNA
AF04-17 6 111 5S_rRNA
AF04-17 196 3065 23S_rRNA
AF04-17 3628 5152 16S_rRNA
AF04-17 2 1159 23S_rRNA
AF04-17 2 890 16S_rRNA
AF04-17 1 486 16S_rRNA
提取16S rRNA位置信息
cat barrbap_bgi_length.txt | awk '{if($4=="16S_rRNA" || $4=="type") print $0}' > barrbap_bgi_length_16S.txt
cat barrbap_illumina_length.txt | awk '{if($4=="16S_rRNA" || $4=="type") print $0}' > barrbap_illumina_length_16S.txt
id start end type
AF04-12 3514 5037 16S_rRNA
AF04-17 3628 5152 16S_rRNA
AF04-17 2 890 16S_rRNA
AF04-17 1 486 16S_rRNA
AF04-28 2 590 16S_rRNA
AF04-28 164 1155 16S_rRNA
AF11-25B 307 1740 16S_rRNA
AF13-35 103 1647 16S_rRNA
AF14-49 234 1755 16S_rRNA
这里会发现,一个基因组会出现多条5S 23S 16S,可能是组装错误引起的,为了方便研究可以针对比较完整的(1.5KB)左右的16S rRNA进行分析。