序列比对
选择序列比对的方法:Muscle或者ClustalW。ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。Muscle的功能仅限于多序列比对,它的最大优势是速度,比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。方法可以通过点击图中上方Alignment或者下方的图标「W」和「Muscle」来选择。如果你的序列是DNA编码序列,就一定要选择Align Codons,因为序列通过密码子比对比DNA序列的比对会更加真实,避免间隙对比对结果产生的影响。
(但是该选项会因为序列中含有终止密码而报错。)
比对之后要去检查一下比对的情况,有的差异很大的或许是因为序列方向反了,这个时候要把它反转回来,右击这条序列,点击Reverse Complement,反转后一定要再次点击比对,检查是否大部分都对齐了。
算法选择
分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。点击MODELS中的Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻找最适合的模型。
分析计算结果。具有最低BIC分数(BayesianInformation Criterion)的模型被认为是最好地描述替代模式。对于每个模型,还给出了AICc值(Akaike Information Criterion, corrected,值越低拟合程度越好),以及用来计算上述两个分值的最大似然值(lnL)和参数数量(包括分支长度)。在这里就可以看到,BIC分数最低的模型是K2+G+I,K2+G+I在这里就是最好的模型。
但因为实际在后面的模型选择中,软件有时没有提供组合的模型来选择,所以我们继续看下面的BIC分数,可以找到单个模型中得分最小的,就是我们在这里要选择的最优模型。