基因预测(识别)两种方法:
间接识别法(Extrinsic Approach)
通过相似性比对,从已知基因和蛋白质序列中得到间接证据。BLAST
缺点:测定mRNA或蛋白质序列的成本高昂,而且在复杂的生物体中,任意确定的时刻往往只有一部分基因得到了表达。
从头计算法(Ab Initio Approach)
基于各种统计模型和算法从头预测。
优点:构成蛋白质编码的序列构成一个连续的开放阅读框(内容),其长度约为数百个到数千个碱基对(依据该长度区间可以筛选合适的密码子)。除此之外,原核生物的蛋白质编码还具有其他一些容易判别的统计学的特征。这使得对原核生物的基因预测能达到相对较高的精度。
GeneMark* software
http://topaz.gatech.edu/GeneMark/license_download.cgi
安装:
下载后需:
1.gunzip gm_key64.gz
2.mv gm_key64 gm_key (重命名)
3.拷贝权限:cp gm_key ~/.gm_key
举例:
这里的sequence.mfa为你预测组装出来的contig序列
Example 1:
gmhmmp -m MetaGeneMark_v1.mod sequence.mfa
Predictions will be in file "sequence.mfa.lst" in default GeneMark.hmm format .
Example 2:
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod -o sequence.gff -A prot.fa -D nucl.fa sequence.mfa
Predictions will be in file "sequence.gff" in GFF format with nucleotide and protein sequences for each predicted gene.
结果展示:
GeneMark网页版:
http://topaz.gatech.edu/GeneMark/gm.cgi