本文的内容主要参考文章 《系统发育分析之BI篇(By Raindy)》
本次实例所用到的数据为8个苹果属植物完整的叶绿体基因组序列加一个 Aphananthe aspera(糙叶树 榆科)作为外类群(outgroup);
外类群是指所研究内容之外的一个群体,主要用来确定所研究的系统发生树根的位置;选择的标准:在所研究的内容之外,但关系又不能太远。比如分析一个基因在不同人种之间的进化关系,可以选择黑猩猩的同一个基因加入作为外类群;外类群可以有多个,但又不能太多,2-3个最好
——摘自中国大学慕课MOOC 山东大学《生物信息学》公开课
基本流程
1、使用简单的python脚本下载9种植物完整的叶绿体基因组序列;
2、使用HomBlocks pipeline完成叶绿体基因组的比对;
3、使用Mesquite软件将上一步获得的fasta格式的比对结果转化为Mrbayes要求的nexus格式;
4、按照文章《系统发育分析之BI篇(By Raindy)》中的步骤完成系统发育树的构建。
1、下载叶绿体基因组序列的python脚本
脚本的核心内容是使用Biopython的SeqIO模块从NCBI下载fasta或者genbank格式的文件,主要是模仿参考书《Bioinformatics with Python Cookbook》第二章的部分内容;使用方法:将要下载的叶绿体基因组的accession number放到一个txt文件中,每行一个,然后将其与脚本放到同一个文件夹下
python download_gb_or_fa_from_NCBI_cp_genome_database.py -f fasta -a Malus_cp_acc.txt
-f 参数指定下载的格式为fasta,如果想要下载genbank格式发的文件可以更改为gb
-a 参数后面接的是存放accession number的txt文件
下载好的fastawen文件存放在cp_genome_fasta文件夹下
2、使用HomBlocks pipeline 完成叶绿体基因组的比对;
这一步在linux操作系统下完成,可以直接参考HomBlocks的官网 https://github.com/fenghen360/HomBlocks,软件作者列出了非常详细的安装,使用流程。简单记录自己的使用过程:首先将上一步下载的cp_genome_fasta文件夹放到和 HomBlocks.pl 脚本相同的目录下,然后在 HomBlocks.pl 脚本所在的目录下运行命令
perl HomBlocks.pl --align --path=/home/Pomgroup/mingyan/Bioinformatics_tool/Phylogenetic/HomBlocks-master/cp_genome_fasta/ -out_seq=Malus_aligned.fasta --mauve-out=Malus_mauve.out
这一步输出的 Malus_aligned.fasta 文件就是比对好的fasta格式的文件,继续用于下一步的分析
3、使用 Mesquite 软件将上一步输出的fasta格式的比对文件转化为nexus格式
这一步直接在windows系统下完成,Mesquite软件的下载地址 https://github.com/MesquiteProject/MesquiteCore/releases
下载好以后直接解压出来就可以使用。打开程序以后点击File——open file ,找到已经比对好的 fasta 格式的文件
然后依次点击OK和保存;格式转换就完成了。
4、根据文章《系统发育分析之BI篇(By Raindy)》的内容构建系统发生树
- 选择进化模型:需要用到的软件 MrMITgui;PAUP;MrModeltest;Moeltest;以上的软件全都可以在文章的作者的网盘下载。
在重复以上内容时自己遇到的一个小问题:可以 RUN PAUP 得到 mrmodel.scores 文件,但是运行Mrmodeltest时没有反应,不知道是什么原因,自己的解决办法是将mrmodeltest的程序换成了较新的版本
20181103
- 使用MrMTgui遇到错误,原因是windows下的PAUP不能用了,才意识到windows下的PAUP不是免费使用的,破解版的安装包可以到高老师的网盘http://raindy.ys168.com/下载;报错信息 This version of PAUP has expired. Visit http://paup.phylosolutions.com to obtain a newer version.
自问自答
使用MrMTgui运行PAUP得到的得分文件是必须保存到PAUP的安装目录吗?
是的是的,之前尝试的时候没有遇到报错,可能是自己直接就保存在了PAUP的安装目录下,今天尝试将得分文件保存在了其他地方,一直遇到报错,回头重新翻高老师的教程发现了这句话:将得分文件保存到paup的安装目录下;也可能是之前在官网下载的paup安装包安装的时候直接把paup命令添加到了环境变量,因为之前自己尝试在dos窗口是可以运行的,安装了高老师的安装包后在dos窗口是不能运行paup的,所以得把得份文件保存在paup的安装目录下 - 执行MrBayes的时候又遇到报错,原因是使用到的nexus的开头的格式不对,需要修改成这样式的
自问自答
之前也尝试过MrBayes,为什么没有遇到报错呢?
自己使用的是Mafft做的比对,输出的fasta格式,然后使用在线程序http://sing.ei.uvigo.es/ALTER/将fasta转化为nexus格式,在选择输出格式的时候是可以选输出格式为那个程序所用,这次转化的时候应该是没有选程序
使用phylip构建进化树一直遇到报错 ERROR: Unexpected end-of-file.
原因:序列名与序列之间必须是严格的10个字符
phylip构建最大简约树参考百度文库