Genbank文件包含一条序列数据的多方面信息,但却不是分析时可以直接利用的有效格式,因此,多数时候,我们需要在分析之前对Genbank格式进行转换。于是,就有了readseq(我开个玩笑)
我打算慢慢写这个工具的使用笔记,用一点,写一点
当然,大家可以直接上readseq的官网看使用说明
安装
brew install readseq
简单粗暴
使用
- 引用自biostar handbook
- 在Unix类型系统下,我们可以使用管道pipe直接接收来自cat等的数据,加上
-p
参数即可 - 默认传入的序列格式为
.gb
让我们先下载一段序列:efetch -format=gb -db=nuccore -id=AF086833 > AF086833.gb
- 将数据格式转换为fasta:
cat AF086833.gb | readseq -p -format=FASTA
- 转换格式的同时提取CDS区:
cat AF086833.gb | readseq -p -format=FASTA -feat=CDS
- 转换为GFF格式:
cat AF086833.gb | readseq -p -format=GFF
- 转换为GFF的同时提取CDS区:
cat AF086833.gb | readseq -p -format=GFF -feat=CDS
提示:readseq在提取数据时,如果gb文件包含蛋白质序列,那么在annotation部分,你还可以直接得到蛋白质序列,很棒啊!