GMAP最早用于讲EST/cDNA序列比对到参考基因组上,可以用于基因组结构注释。后来高通量测序时代,又开发了GSNAP支持高通量数据比对。
软件安装
我采用的是利用源代码且在无root权限下进行安装。
wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2019-09-12.tar.gz
tar zxvf gmap-gsnap-2019-09-12.tar.gz
cd gmap-2019-09-12/
./configure --prefix=/your/usr/local/path --with-gmapdb=/path/to/gmapdb
make
make check (optional)
make install
#接下来添加到环境变量
vim ~/.bashrc
source ~/.bashrc
软件使用
假设你有一个未知的reference序列和已知的CDS序列,你想知道这个CDS上的基因有多少能匹配到reference上。
#首先构建索引数据库(我建立的是包含所有序列的fasta文件)
gmap_build -d reference reference.fasta
这里的-d
表示数据K库的名字,默认把索引存放在gmap安装路径下的share里,可以用-D
更改.此外还有一个参数-k
用于设置K-mer的长度, 默认是15, 理论上只有大于4GB基因组才会有两条一摸一样的15bp序列(当然是完全随机情况下)。
#正式使用,得到gff文件
gmap -t 10 -d reference -f gff3_gene cds.fasta > reference_cds.gff
#得到基因组上的蛋白序列
gmap -t 10 -d reference -Q cds.fasta > reference_protein.fasta
-t设置线程数, -d表示参考基因组数据库的名字, 都是常规参数,设置 -Q 输出基因组上的蛋白序列。
参考链接: