进化树作图专题1:Newick的前世今生

montreal 生信人 2018-02-05

相信很多朋友在研究中都遇到过有关进化树作图的问题。从本期开始,我将为大家带来进化树作图系列专题,希望能对有着不同专业背景的读者在进化树作图(请注意不是建树)方面有所帮助。

想必大家都知道Newick格式是目前进化树做常用到的一种格式了。比如,对于下面这棵树:

小编作图,欢迎转载或修改

用Newick格式来表示,就是:(A,(B,(C,D)))。很简洁吧?目前,作为最常使用的进化树格式,Newick在各种作图软件中得到了广泛应用。本文将首先回溯历史,带你了解Newick的前世今生。

时光回转三十年。1986年6月26日,美国新罕布什尔州多佛市(Dover,New Hampshire)的一家龙虾馆里,七位科学家一边吃着美味的龙虾,一边书写下了分子进化领域浓墨重彩的一笔。对于这次会议,能找到的资料极为有限,但其结果却对整个系统发育学(phylogenetics)产生了重要的影响。因为正是在这次会议中诞生了一种全新的、用字符与括号来对进化树进行描述的格式。这次在新罕布什尔的会议实际上由一系列非正式的讨论构成,而最后一次讨论(还有第二次讨论)正是在一家名为Newick’s Lobster House的龙虾馆举行,也许是龙虾鲜美令人难以忘怀的缘故,大家决定用Newick龙虾馆来命名这种格式(学界也称之为New Hampshire format)[1]。


BTW;这家建于1948年的龙虾馆至今仍在营业。听去过的人说味道确实不错,推荐fried oysters和Gulf shrimp,大家有兴趣可以去尝下鲜,地址:Address: 431 Dover Point Road, Dover, NH 03820。

从此,Newick从新罕布什尔的龙虾馆慢慢走入世界各大学的图书馆,尽管从未在正式文献中被专门论述过[1]。七位与会嘉宾都是当时分子进化和计算机学界的翘楚,让我们看看他们都是谁:James Archie, William Day, Joe Felsenstein,Wayne Maddison, Christopher Meacham, F. James Rohlf, David Swofford [1]。没听说过?没关系,其中的几位在下文和本系列专题后续的文章中还会多次出现。多说一句,本次会议的发起人[1]、著名分子进化学家,时任华大西雅图(University of Washington, Seattle)遗传系教授的Joseph Felsenstein还有一位亲弟弟,Lee Felsenstein,是一位知名的电子工程师,对于PC的早期发展有巨大贡献[2],大家不要搞混。

针对Newick格式,需要注意的是不同的树会有多种的Newick格式对应 [1]。让我再回到本文开始的例子:

以下三种方式:(A,(B,(C,D))),(A,(B,(D,C))),(A,((C,D),B)),都可以表示这棵树。此外,实际应用中很多的树是无法定根的(rooted)。这里所谓的“根”就是祖先,不能定根也就是我们无法知晓祖先在哪(如图所示,1、2还是3)。用Newick来表示的时候,一般的原则是人为地定一个根。还是上面这棵树,如果对于一棵不定根的树(unrooted tree),那么(A,(B,(C,D))),((C,D),(B,A))和(D,(C,(B,A)))表示的都是同一棵不定根树(unrooted tree)[1]。

Newick的独角戏唱了一年,就迎来了竞争对手Nexus,一种包含有多种信息并以模块化存储的新格式。与Newick不同,Nexus有一篇在正式期刊发表的文章,专门介绍这种格式。这篇文章于1997年刊载在分子进化和系统分类学(systematics)顶级期刊Systematic Biology上,尽管此前Nexus已在多种软件中(比如MacClade 3和PAUP 3)被使用[3] 。 

作者的名字眼熟吗?对,其中的David Swofford和Wayne Maddison,正是当年新罕布什尔“龙虾七子”中的两位。不过为什么排在第一位的也叫Maddison?莫非?

你没有猜错,这两个Maddison是亲兄弟,而且还是双胞胎!至于哪个是哥哥,哪个是弟弟,有了解的读者欢迎在后面留言,反正我是分不出,请见下图:


Copyright: Wayne Maddison Lab, CC 3.0

BTW:Maddison兄弟之前都在亚利桑那大学(University of Arizona)做老师,其间经常被人搞混,甚至自己的学生也无法分辨。时常有人向哥哥咨询一件事,几天后却向弟弟询问结果,搞得对方一头雾水。后来也许是大家实在受不了,Wayne Maddison遂改换门庭,去往加拿大的英属哥伦比亚大学(University of British Columbia)任教。

作者在文中明确指出了发明Nexus格式旨在提供一种具有延展性(expandability),包容性(inclusivity),可移植性(portability),以及可操作性(processibility)的格式。而这些特性的实现,最重要的就是Nexus模块(modularity)的设计。让我们看一个示例:

小编作图,欢迎转载或修改

这里面的内容确实不少。不过请注意,Nexus对于树的描述(或者说tree block),实际上和Newick如出一辙,所以严格地说,在描述进化树方面,它没有任何创新,只是照搬Newick格式。

有趣的是,上面提及的这几位在进化树格式发展史中具有里程碑意义的人物——Newick龙虾馆会议的组织者Joseph Felsenstein,Nexus格式的发明者David Swofford和Maddison兄弟——分别摘取了第二、第一和第五第六届系统分类学家(systematic biologist)主席终身成就奖(Presidents' Award for Lifetime Achievement)[4]。该奖由系统分类学家协会(Society for Systematic Biologists)每隔三年或以上颁发一次,迄今只有六位得主,堪称系统分类学界最高荣誉[4]。当然,这绝不仅是对于Newick和Nexus的嘉奖。几位科学家的贡献还有很多,比如三个著名的进化软件:Phylip、PAUP和Mesquite,也正分别出自他们之手。

Nexus虽然与Newick同出一源,却由于其更加丰富的内容和复杂的模块化结构,使得很多软件中两者不能兼容:前者有PAUP,Mesquite和MrBayes这样的拥趸,而后者也得到了Phylip,MEGA以及RAxML等软件的青睐。时至今日,如果把两种格式的名字同时输入谷歌搜索框,得到的几乎都是“How to convert nexus files to Newick format?”之类的提问。

Newick和Nexus的二人转在2009年终于迎来了搅局者,它就是phyloXML,一种基于XML并整合了树和其他相关数据的新格式。在phyloXML里,不同的属性用<property>…</property>的方式描述,而XML良好的扩展性也使得phyloXML有着更灵活的设计方式[5]。可以说,这种格式是同Newick有着鲜明区别的、也是真正意义上的一种新的进化树格式。该文作者,美国桑福德-伯纳姆医学研究所(Sanford-Burnham Medical Research Institute)的剥尸猴Christian Zmasek和来自印第安纳大学布鲁明顿分校(Indiana University, Bloomington)的Mira Han,在文中强调,生物学的飞速发展和研究的日益深入使得人们有必要将包括物种、基因名、枝长(branch length)、甚至是成种事件(speciation)等广泛信息整合到进化树中,并以一种全新的格式呈现出来。于是二人一道开发了phyloXML。下图(左)展示了一个包含有多种信息的phyloXML文件。下图(右)则是基于phyloXML的一棵包含物种信息和蛋白质结构域信息的树。   

phyloXML近年来不断完善,现已被包括iTOL在内的许多作图工具所采用,并得到了BioPerl和BioPython的支持,有着越来越广泛的使用群体,与Newick和Nexus渐成三足鼎立之势。有兴趣的读者可以前往phyloXML的大本营http://www.phyloxml.org———看看关于phyloXML更多的内容。

除了上述三种进化树格式之外,还有其他的一些“小众”群体。由于篇幅所限不再一一介绍。本期内容至此介绍完毕,有问题的朋友欢迎在下方留言。预知后续内容,请锁定生信人公众号。

参考资料

http://evolution.genetics.washington.edu/phylip/newicktree.html

https://en.wikipedia.org/wiki/Lee_Felsenstein

Maddison, D. R., Swofford, D. L. and Maddison, W. P. (1997), Nexus: An extensible file format for systematic information. Syst. Biol., 46:590–621.

http://www.systbio.org/presidents-award.html

Han M.V. and Zmasek C.M. (2009) phyloXML: XML for evolutionary biology and comparative genomics. BMC Bioinformatics, 10:356.


作者原创,原载于生信人微信公众号

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容