最大似然法 (3)系统发育模型的选择

以下内容都是基于Christopher P. Randle教授在研究组上交流时的课件整理而来。 

Choosing a appropriate model 选择合适的模型

我们都遇到过这样的问题:坐标图中给出一定数量的点,然后给出x值,预测y值,这是我们就需要根据已有的点建立适合模型,确定模型参数。

我们知道一般参数越多,模型就越适合(fit),预测就越准确:


但是同时,参数越多也会增加预测的错误,因为参数值也需要估计,而且很可能出错。

因此选择一个合适的模型,就是一个权衡利弊(trade off)的过程。

The goal of the model selection process is to choose a model that will simultaneously minimize the number of parameters at need to be estimated while maximizing the likelihood of the tree.

模型选择就是要选出能同时使得参数数量最小化,并且使系统发育树的似然值最大的模型。我们在前面说过模型都是嵌套的,在GTR的基础上通过增强假设条件,减少模型参数。比较这些模型最常用的方法就是likelihood ratio test,用来验证参数的增加是否能增加模型的适合度。

likelihood ratio的表达式如下:


max[p(data|model)]是给定的模型预测的观察数据对应的最大概率(似然值),model_{0} 的参数数量要比model_{1} 少。因为似然值数值通常很小,我们一般还是用自然对数表示:


对于嵌套模型来说,上图的数值应该类似卡方分布(χ2 distribution),自由度(k)等同于model_{0} model_{1} 的自由参数差异。显著性结果证实:模型越复杂,它的模拟结果越好。

最经常用到的,为最大似然法分析选择模型的程序是jModelTest2。在这个程序里,66个嵌套模型会拿来作比较,依据的是分层测试(hierarchical test),测试的项目包括likelihood ratio或者选择Akaike Information Criterion、Bayesian Information Criterion(比较的对象不需要必须是嵌套模型)。首先用likelihood ratio比较最简单的两个模型(JC69和F81),较好的一个会和一个更复杂的模型比较,直到可选择的模型都比较完。

Why models matter?模型为什么重要?

对于系统学来说,最重要的结果就是系统发育树,即到底哪些分类群是单系群?分类群之间的系统发育关系如何?至于哪个模型与分子数据的符合度更好,模型参数的最优值是多少,这些并不是系统学家关心的。简单来说,这些反映的是系统发育的过程,而系统学只关心结果。

但是,我们能说这些参数没有用吗?它们对研究演化过程和机制的人就是很重要的信息。

比如,如果我们发现引入区分转换和颠换的参数能提高模型的适合度,我们就对演化的分子机制有了进一步认识。

再举几个例子:

如果我们想研究一个编码基因是否在净化选择压力下进化(净化选择会抑制碱基替代),那么我们可以比较同义替代速率(该位点碱基替代不改变编码的氨基酸)和非同义替代速率(该位点碱基替代改变编码的氨基酸)。如果这个选择压力是抑制表型的改变(即氨基酸的改变),那么非同义替代的速率应该低于替代随机发生在同义替代和非同义替代位点情况下的速率。

那怎么实现这个比较呢?我们选择两个模型,一个模型认为同义替代和非同义替代位点的速率是相同的,另一个模型中,同义替代和非同义替代位点的速率是不同的。然后进行likelihood ratio test。看哪一个模型的拟合度更好,我们就能评估是发生了净化选择(purifying selection)还是正选择(positive selection,支持氨基酸的变化)。

Complex modeling更复杂的模型

目前我们讲到的模型都是GTR的嵌套模型,它们有一些通病:只适用于DNA系列数据;没有考虑到DNA序列中的indel(插入/缺失)情况;认为所有性状的在整个系统发育树上的演化速率都是同质的或者说均一的,或者认为用简单的参数I和𝚪就可以表示速率的异质性。

有一些更复杂的模型已经出现,它们同样适用于别的数据类型,允许性状和树上演化速率的不均一性,下面选取一些进行简单介绍:

Mixedmodel analysis

我们很容易理解数据的各个部分可能会经历不同的演化过程。比如RNA的stem/loop结构对功能的行使是很重要的,stem部分的演化过程跟loop部分相比是更保守的;在密码子中,第三个密码子位点比第一、二有更高的替代速率;在不同的基因组中(核基因组、叶绿体基因组、线粒体基因组)可能也会有不同的替代速率。有的时候,我们的分析也会需要包含不同的数据类型(连续的/不连续的,DNA数据和外形性状数据)。这时,我们就可以使用mixed model analysis,它可以把数据的本部分分配给各自合适的模型,还可以对所有性状的似然值的自然对数进行加和。

CovarionModels

即使是同一个位点,在整个树的不同分支上演化速率也是会变化的,这个模型就是允许位点上的演化速率通过自相关的方式随着演化过程(或者分支过程)而变化,因此包含了一个模拟速率变化的变化速率的参数。

NoCommon Mechanism(NCM)

Tuffley和Stee(1997)想出这一个模型是为了将最大简约法和最大似然法结合起来。在一定的条件下,NCM中的最大似然树和最大简约树是一样的。在这个模型中,每个性状的分支长度(branch length)和Jukes-Cantor替代概率都是单独分析的。需要分析的参数数量会随着核苷酸位点数和分类群数的增加而增加。这个模型适用于任何形式的不连续性状数据。

MarkovK-States (Mk).

这个方法是Lewis(2001)想出来的,为的是将不连续的外形性状包含进系统发育分析中来。它就像JK69的扩展版,允许性状状态数随着不同性状改变。Mk(前提条件包括速率的均一性和各位点分支长度的均一性)要求的参数数量比NCM的要少,因此有更大的数据相容性。尽管Mk的一些目的也是为了建立不考虑加权的最大简约模型,它可能会产生和最大简约树不相符的最大似然树,因为一些独树一帜的性状(autapomorphic characters,也可以理解为衍生性状,只在部分分类群中存在)也能为估计外部分支长度提供信息。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容