最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推荐使用 MAFFT 软件进行多序列比对。【来自陈连福博客】
MAFFT
一、安装
wget https://mafft.cbrc.jp/alignment/software/mafft-7.453-with-extensions-src.tgz
tar zxvf mafft-7.453-with-extensions-src.tgz
vi修改extensions和core文件夹中MakeFile文件的第一行prefix路径到个人文件夹
cd mafft-7.453-with-extensions/extensions
make clean
make
make install
cd ../core
make clean
make
make install
#mafft程序在scripts里
二、运行
1. 精确比对
最准确的方法。适合于 <200 条序列,且序列长度 <~2000 aa/nt 的比对
mafft --maxiterate 1000 --localpair input.fa > output.fa 或者 linsi input.fa > output.fa
适合于序列长度相似的多序列比对。序列条数 <200, 序列长度 <~2000 aa/nt
mafft --maxiterate 1000 --genafpair input.fa > output.fa 或者 einsi input.fa > output.fa
适合序列中包含较大的非匹配区域。序列条数 <200, 序列长度 <~2000 aa/nt
mafft --maxiterate 1000 --globalpair input.fa > output.fa 或者 ginsi input.fa > output.fa
2. 节约时间
减少迭代次数,最大迭代次数减为 2
mafft --retree 2 --maxiterate 2 input.fa > output.fa 或者 fftnsi input.fa > output.fa
最大迭代次数减为 0
mafft --retree 2 --maxiterate 0 input.fa > output.fa 或者 fftns input.fa > output.fa
此方法非常快速,适合 >2000 条序列的多序列比对
mafft --retree 1 --maxiterate 0 input.fa > output.fa
迭代过程中不进行 FFT aproximation
mafft --retree 2 --maxiterate 2 --nofft input.fa > output.fa 或者 nwnsi input.fa > output.fa
mafft --retree 2 --maxiterate 0 --nofft input.fa > output.fa 或者 nwns input.fa > output.fa
3 个参数都设置为最不消耗时间的类型,适合于 ~10,000 到 ~50,000 条序列的比对
mafft --retree 1 --maxiterate 0 --nofft --parttree input.fa > output.fa