一、ClustalW进行多序列比对
ClustalW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系。然后根据距离矩阵计算产生的系统进化树,对关系密切的序列进行加权。然后从最密切的两条序列开始,逐步引入邻近的序列并不断重新构建对比,直到所以序列都被加入。参考https://www.jianshu.com/p/5a23263a92a3
Windows系统直接跳到本节最后黑体部分。
顺便提一下,通常进行蛋白序列比对的时候选择ClustalW,而DNA序列比对的时候则选择Muscle
- linux系统下安装ClustalW
由于我的系统之前就是安装好了的,所以只需参照一下网址https://blog.csdn.net/bbka_717/article/details/7967778 - 进行多序列比对
clustalw这个软件会一步一步给出选项,该处我们
clustalw
#选择多序列比对
1. your choice: 1
2. Enter the name of the sequence file: some_genes.fa
3. your choice: 2 #选择多序列比对
4. your choice: 1 # 选择做一个完整的多序列比对
5. enter a name for CLUSTAL file [some_genes.fa]: some_gnes.aln
好了按照以上步骤选择,clustalw就开始进行多序列比对了,我是200多条序列大约需要50min,完成后会生成一个aln文件,作为多序列比对的结果
6. enter name for new GUIDE TREE # 输入生成GUIDE TREE的文件名。
7) contiune? :y
随后会生成.dhd格式文件,该文件用于画进化树。
---也可以在Windows上做,用MEGAX做,所以我用MEGA X做得CLUSTALW,下载地址https://www.megasoftware.net/
安装比较方便,跟着安装步骤点击下一步即可;
然后选择CLUSTALW默认设置进行多序列比对
二、IQ-TREE画进化树
由于Windows安装和操作也比较方便,所以我选择用Windows做,主要参考https://mp.weixin.qq.com/s__biz=MzIxODU1MDI1OQ==&mid=2247483681&idx=1&sn=9ec7fcd8867ff6820b980261c2f7fef2&scene=0#wechat_redirect
tips:建树根据序列差异:
序列差异不大--选择NJ法建树
序列差异大--选择ML法或贝叶斯建树
IQ-Tree主要是以ML法进行建树,以下是在Windows命令行中IQ-tree的使用:
win + R
cmd
F:
# cd到IQ-TREE文件的bin文件夹,cd是命令行命令,change directory的缩写,意为改变目录,通过命令行进入到IQ-TREE安装目录下的bin文件夹
iqtree2.exe -s ..\example.phy
.\iqtree2.exe -s .\example.phy -alrt 1000 -bb 1000 -nt AUTO
# -alrt 1000 bootstrap,代表进行1000次超快自展
# --bb 另一种bootstrap
# -nt AUTO 代表自动选择最适合的线程数
输出四个文件
然后用Figtree打开.treefile文件
调整好树的颜色字体等,然后输出
在UltraEdit或者notepad上,用正则去掉不要的部分,从树的形状来决定去掉部分
然后将‘:’改成‘\n’
其它的一步一步删掉
最后再根据基因ID去获得序列再建树