最大似然法 (1)基本原理

以下内容都是基于Christopher P. Randle教授在研究组上交流时的课件整理而来。 

最大似然法选择的最优树是使得观察到的性状分布(character state distribution)出现的概率最大的树。

最重要的是理解似然值(likelihood)。

What is Likelihood? 什么是似然值?

The likelihood of a hypothesis is the proportion to the probability that it is true. Meaning, the likelihood of hypothesishis the probability of observing data given hypothesis h.

尝试翻译一下,就是给出一个假设h,该假设的似然值L(h)就是:在此假设是真实条件下,发生事件d的概率p(d/h)。

举个简单的例子:

分子实验室里有两个好朋友Ron和Anthony要抛硬币决定谁去干活。Anthony从口袋里掏出一枚硬币,但是Ron一直怀疑Anthony的人品,因为Anthony经常放一枚假硬币(假硬币正面朝上的概率为90%,真硬币为50%)在口袋里。为了区分真假硬币,两个人没有去找如来佛祖,而是开始炫统计学。

此时有两个相互对立的假设(competing hypotheses):

假设1:硬币是真的

假设2:硬币是假的

而最大似然值方法就是用来帮助评估这两个两个相互对立的假设谁更可能是真的。

在计算这两个相互对立的假设的似然值之前,我们先来说下二项分布(binomial distribution)。

在生活中,我们经常会碰到两个对立的事件,比如现在的硬币是真是假。二者非此即彼,概率相加为1。

现在还是以抛硬币为例,结果只有两种:正面朝上和反面朝上。抛硬币是个独立(每次抛硬币事件之间不会相互影响)可重复事件。假设正面朝上的概率为p,抛n次硬币,正面朝上出现x次的概率为:

 

然后两人开始抛硬币,抛了4次,有3次是正面朝上。


在假设1硬币是真的条件下,正面朝上的概率p=50%,此时

假设2硬币是假的条件下,p=90%,此时

 

0.25和0.29好像相差不大啊,于是两人继续抛了4次,都是正面朝上,现在n=8x=7,同上面的计算方式得到:L(h1)=0.03125,L(h2)=0.38264

假设2硬币是假的似然值就比假设1大多了。统计学告诉我们这枚硬币大概率是假的。

Phylogeny and Likelihood 系统发育和似然值

The likelihood of a phylogeny is the probability a character state distribution (the data) given that phylogeny. The tree hypothesis (topology+ branch lengths) that maximizes the probability of having observed data, is the tree of maximum likelihood, and is to be preferred over less "likely" hypotheses.

简单翻译一下,就是根据现有的性状数据,存在千千万的系统发育树假设。对给定的系统发育树,计算在它是真实的这一假设下,使得现有性状分布出现的概率,也就是该树的似然值。似然值最大的那棵系统发育树(已给定拓扑结构和分支长度信息)就是最大似然树,我们更倾向于选择它。用公式表示如下:


那么如何估算系统发育树的似然值呢(estimating the likelihood of a topology)?

再来举一个简单的例子:


有4个taxa:1、2、3、4,它们的一段DNA序列信息可以看作一套性状J(a set of character J),由在每个位点上的碱基(性状1、2、3··j··n)组成。

对某一个位点j,我们假设它演化的拓扑结构topology1如上图右边所展示。

最大似然法和最大简约法的不同就在于它考虑了所有的情况。在最大简约法里,给出右面的topology,我们的直觉就是taxon1和taxon2上面的node应该是碱基C,这是最简单的一种解释,而最大似然法会把所有的情况考虑进去 。两个未知的形状状态(character state),即node上的碱基,都有四种可能,即A、C、T、G四种碱基,所以可能情况的总和是4的二次方,共16种可能性,对这16种可能性我们都要进行估计。

The likelihood of topology 1 given character j is the sum of the probabilities of all state optimizations for two nodes.

对j性状来说,给定的topology1这一拓扑结构的似然值就是两个节点上16种碱基分布概率的加和。

值得注意的是,topology1是只是所有可能的topologies的一种假设。 除了topology1,还有其他可能的topologies,比如taxon1和taxon2是独立演化出C。 

The likelihood of the tree for all characters in set J, then will be the product of the likelihoods estimated for each character in set J, or the joint probability。

如果系统发育树把J这套性状中的所有性状都考虑进去了(也就是这一段DNA序列所有碱基位点),那么该树的似然值就是所有性状估算的似然值的的乘积。 

 每个树的似然值都很小,因此我们一般用自然对数(ln值)表示

The computational difficulty of estimating the likelihood for any one character on any one tree will grow exponentially with an increase in the number of taxa(n).

通过上一节我们知道,随着分类群的增加,可能的拓扑结构数量会呈指数式增长,这就造成了计算上的困难。

幸运的是,Felsenstein(1981)想出了pruning这个方法。这个方法的具体的原理不清楚。放一段英文原文:

Simply, the method calculates likelihoods of nodes individually under all state optimizations starting at the nodes near the tips and working toward internal nodes. Rather than estimating the likelihood of an entire tree given a set of state optimizations, the pruning algorithm avoids repeating the calculations of any state optimizations for any node by rearranging the terms in the estimate, so that calculation occurs one node at a time.

尝试翻译一下:这个方法单个计算每个节点的似然值,从末端节点开始,向内进行,而不是估算整个树的似然值,这样就避免了在一个节点上的重复计算,每个节点只估算一次。

What is a model? 什么是模型?

到目前为止,我们还没说到系统发育树是怎样包含观察到的性状分布概率的相关信息的,我们需要用模型来清楚地展示性状状态的发生过程。

Tree imply nothing regarding probability of state change. A process model of evolution is required to assess the likelihood of a tree.

怎么把一系列性状、系统发育树与概率联系起来呢(how the probability of a set of characters is estimated for a given phylogeny and model)?我们就需要模型(model)。

A model is simply a hypothesis that has been formulated statistically so that the predictions of that model can take the form of some probability distribution. The essential aspects of a model are called parameters. These govern how the prediction of the model are allowed to vary.

模型就是用数学公式来表示的一个假设,模型的预测就会以概率分布的形式呈现出来。模型最关键的是它的参数,参数决定了模型如何做出预测。

我们在这里举一个简单的建立模型的例子:

还是刚才的抛硬币问题,Ron掏出一枚硬币,我们给出一个假设:这是一枚真硬币,这时用参数:正面朝上的概率p就可以表示这个假设。在“这是一枚真硬币”假设前提下下,参数p的值是50%。

这是一个简单的假设模型,一个参数就可以搞定。但是当情况复杂时需要多个参数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容