叶绿体基因组的文章中通常会有一小部分内容是运用DnaSp软件来进行核苷酸多态性π分析,断断续续看了也好长时间了,今天终于重复出了结果,简单记录自己的重复过程:
论文:comparative analysis of six Lagerstroemia complete chloroplast genomes 期刊 frontier in plant science IF 4.298 植物科学 2 区
第一步:使用R语言的的 ape 包的 read.GenBank() 函数 批量下载六个完整的叶绿体基因组序列
在文章的材料和方法部分可以找到六个叶绿体基因组的 accession number,分别是 KF572028;KF572029;KX572149;KT358807;KX263727;KU885923;下载序列用到的代码
打开结果文件可以看到序列都是小写字母,平时大写字母看多了可能会有点不习惯,如果文本编辑器用的是notepad++的话可以用ctrl+shift+u快捷键将小写字母转化为大写字母(自己是做了转化的,但是不知道什么原因mafft比对后又变成了小写字母)
第二步:使用mafft进行多序列比对
命令:mafft --auto L-cp_genome.fasta > L_cp_genome_aligned.fasta
问题:论文中序列比对后通常会进行手工调整(these complete cp genome sequences were aligned using MAFFT and were manually adjusted),为什么要调整以及根据什么标准来调整??????
第三步:使用DnaSp计算核苷酸多态性π
打开DnaSp软件,File——Open Data File 载入刚刚比对好的数据(需要注意把文件后缀名改为.fas);然后Data——Format分别点chloroplast和Haploid;然后选择Analysis——DNA Polymorphism,将window length和step size分别改为600和200,点击ok即可完成计算,具体步骤参考使用DnaSP计算核苷酸多样性和单倍型多样性 | Public Library of Bioinformatics
问题:如何把结果保存到文件中自己来绘制结果图呢?
更新(20181002)
计算结果是可以保存到文件中的,按照上述步骤操作完成后点击左上角的save可以将结果保存到文件中
终极问题:做这个分析可以说明什么问题呢?原文虽然做了这个分析但是在结果中以及讨论部分好像并没有提到相关内容。。。。。。
更新(20181002)关于做这个分析的意义在一篇论文中找到一句话:变异度较高的区可以为种群遗传学提供潜在的分子标记(We detected five of the most variable loci, namely trnS-psbZ,petA-psbJ, atpB-rbcL,trnL-rpl23, and trnH-psbA (Pi > 0.008;PIC > 5), providing potential markers for population genetic studies.)