在基因组注释中,预测基因结构是最核心的一环,在众多的从头预测软件中,augustus应用较广。但是由于安装过程依赖软件较多,如果没有管理员权限一般不要轻易尝试,有兴趣可以参考 基因预测软件中的奥古斯都。
1. 脚本运行
$ augustus --strand=both --genemode=partial --singlestrand=false --hintsfile=hints.gff --extrinsicCfgFile=extrinsic.cfg --protein=on --introns=on --start=on --stop=on --cds=on --codingseq=on --alternatives-from-evidence=true --gff3=on --UTR=on ----outfile=out.gff --species=human genome.fa
$ augustus --noprediction=true --species=SPECIES sequences.gb
参数解释:
--strand=both,--strand=forward or --strand=backward 表示注释基因在两条链还是其中一条;
--genemodel=partial, --genemodel=intronless, --genemodel=complete,--genemodel=atleastone or --genemodel=exactlyone
partial : 允许在序列边界预测不完整的基因(默认值) intronless : 只预测单外显子基因,如在原核生物和一些真核生物中 complete : 只预测完整基因 atleastone : 预测至少一个完整的基因 exactlyone : 准确预测一个完整的基因;
--singlestrand=true 独立预测每条链上的基因,允许在相反的链上有重叠的基因。这个选项在默认情况下是关闭的;
--hintsfile=hintsfilename 当使用此选项时,将打开考虑提示(外部信息)的预测。hintsfilename包含gff格式的提示;
--extrinsicCfgFile=cfgfilename 可选的。此文件包含用于提示及其boni和mali的使用源列表。如果没有指定配置目录中的extrinsic.cfg文件,则使用$AUGUSTUS配置路径;(不太懂)
--maxDNAPieceSize=n 此值指定是为了运行核心算法(Viterbi)而将序列分割成的片段的最大长度。默认的是——maxDNAPieceSize = 200000;
--protein=on/off
--introns=on/off
--start=on/off
--stop=on/off
--cds=on/off
--codingseq=on/off
输出选项。输出预测蛋白序列,内含子,起始密码子,终止密码子。或者在“初始”、“内部”、“终端”和“单外显子”之外使用“cds”。cds不包括停止密码子(除非stopCodonExcludedFromCDS=false),而终端和单个外显子包含停止密码子;
--AUGUSTUS_CONFIG_PATH=path 配置config的路径(如果没有就指定为环境变量);
--gff3=on/off 输出gff3格式;
--proteinprofile=filename 读取蛋白序列;
--predictionStart=A, --predictionEnd=B 针对某一特定区域进行注释,可以快速注释某一感兴趣的区域;
--UTR=on/off 预测除编码序列外的未翻译区域。目前,这只适用于人类,galdieria, toxopl asma和caenorhabditis;
--outfile=filename 打印输出到文件名而不是标准输出;
--noInFrameStop=true/false 不要返回带有终止密码子的转录本。否则,可能会发生内含子跨越终止密码子。默认值:假;(不太懂)
--noprediction=true/false Augustus也可以以genebank格式文件为输入文件,进行基因预测,并将预测结果和genebank的结果进行比较后得出一个精确性的统计结果。