基因功能注释需要蛋白文件,有时候注释或下载的基因组没有蛋白文件,需提取并转换,据师兄师弟说gffread提取结果有问题,可能造成移码等,因此使用TBtools进行提取并转换。
Step1. 根据注释文件提取cds文件
得到的cds文件如下:
step2. 将cds序列转换为蛋白序列
使用Sequence Toolkit中的 ORF Prediction——> Batch Translate CDS to Protein,这一步要注意的是输入和输出文件路径中不能有中文,否则会报错,我的报错如下:
更换路径后成功提取,结果文件如下: