cds文件:注释信息里的蛋白编码序列
pep文件:cds对应序列翻译成的氨基酸序列
从NCBI上下载基因组时,有的并没有上传cds文件和pep文件,此时该怎么办呢?
(1)利用脚本
①根据注释文件提取转录本:
生信笔记系列之序列提取--根据GTF提取转录本
从NCBI基因组数据中获得cds,pep和geneID对应表- 薛猫_柳叶 ...
②将cds转换成pep:
从cds到pep
(2)利用cufflinks中的gffread工具
# conda上安装cufflinks,使用之前激活环境
source /data1/spider/liupiao/miniconda3/bin/activate
# 提取cds
gffread in.gff3 -g ref.fa -x cds.fa
# 获得pep
gffread in.gff3 -g ref.fa -y pep.fa
# 提取外显子序列
gffread in.gff3 -g ref.fa -w exons.fa
格式转换
gffread genome.gff3 -T -o genome.gtf
gffread genome.gtf -o- > genome.gff3
参考:
https://www.jianshu.com/p/c3f723c895fe
https://www.cnblogs.com/zxzhu/p/7900843.html