序言
大晚上的不知道干些啥好,想起了之前积累的一个小小的问题。
这里搜一下资料,快速的整理出一小篇文章好了~
内容大概就是 N种phylogenetic tree上不同的数字
基本的系统发育树
系统发育树大概是最最常见的一个结果图了,大家都知道树长什么样,但是却不一定知道上面的数字意义是什么。又或者只知道其中的几种。
以上的树结构,算是比较常见的一种,一般也会有图例表示,多长的长度代表多远的距离,所以甚至会不标记任何的数字,因为支长(branch length)本身就携带了大量的信息。
那么如何阅读一棵树的信息呢,上图也写的比较清楚。物种A与物种B的距离就是AA+BB,至于这个支长是什么,下文再去说有哪些测度(metrics)可以用以表征这个相似度,但是总的而言,如果需要比较两个物种的距离,即支长的不断相加。
树是什么?
如果要我解释的话。
树就是距离矩阵的可视化结果
每个叶子节点就是距离矩阵的横轴或者纵轴,由于树上每两个叶子节点间都可以两两到达,结合上述的物种的距离,最后就会得到一个距离矩阵,而一个距离矩阵却可以得到多个树的结果。(取决于 有/无根 树的画法等)
数字的定义
上述的定义,其实也可以看这篇文献的原始的legend。首先斜杠不代表除法,仅仅代表或的意思。左侧贝叶斯后验概率的百分比,右侧是通过bootstrap进行计算的百分比,简单点说,两个都是代表了这个node以下的树结构的可靠程度。
关于bootstrap的计算,可以参考Bootstrapping phylogenetic Trees: theory and methods
标在Node(顶点)上的数字,大多为置信程度,代表该node以下的树结构的可靠程度 (A图)
标在边上的数字,则为支长的具体数值。(B图)
建树的方法
虽然建树的标准有很多,但是概括来说,phylogenetic tree的方法有三种
1. Parsimony (简约法)
将需要比较的东西进行 binary(二元)化,例如有无毛发,有无皮肤等基于特征的方法。
为什么叫简约法?
就是因为二元化后,通过层次递进,就可以推导出共同祖先。即用最少的信息即可描述子节点的过程。
2. Distance Matrix based
基于距离矩阵,有距离矩阵就有树。。。如上
3. Maximum likelihood(最大似然)
通过最大似然的估算,一个很长的贝叶斯概率计算,通过最大化结果,从而得到树
结尾
。。。这是篇很简单以及很水的文章(毕竟只花了1h不到。。),希望大家也可以1分钟看完。。
reference
Phylogenetics
PCB_Lect11_Phylogen_Trees.pdf
youtube Maximum likelihood for phylogenetic tree reconstruction