文献时间
1999
摘要
KEGG (Kyoto Encyclopedia of Genes and Genomes)是一个用于基因功能系统分析的数据库,将基因组信息与更有序的生物功能信息联系起来。基因组的所有信息储存在GENES数据库中,它包含了所有完整测序的基因组和一些实时更新的部分测序基因组。更有序的生物功能信息储存在PATHWAY数据库中,其中包括了生物过程的图形表现形式,比如新陈代谢,膜运输,信号转导,细胞循环。PATHWAY数据库由一组直系同源组表补充,用于保存子途径(途径基序)的信息,这些信息通常由染色体上的位置偶联基因编码,并且在预测基因功能方面特别有用。KEGG中的第三个数据库是LIGAND,其中保存着化合物,酶分子,酶促反映等相关信息。KEGG提供Java图形工具,用于浏览基因组图谱,比较两个基因组图和操纵表达图,以及用于序列比较,图形比较和路径计算的计算工具。KEGG数据库每天更新而且可以免费获取。
引言
各个物种的基因组测序数据不断的完整,但是对于每个基因功能的注释信息还很片段。KEGG尝试通过对生物过程的计算处理,对注释信息的标准化处理来将基因组信息和生物功能信息联系起来。总的来说,一个活细胞的生物功能是许多生物分析相互作用的结果;并不能通过单独的基因或者分子就将其指代。KEGG中的功能分配就是将基因组中的一系列基因和细胞中一些相互作用的分子联系起来,比如一个通路或者符合物就代表一个更有序的生物功能。
KEGG项目于1995年5月在日本教育,科学,体育和文化部的人类基因组计划下启动。KEGG中多有的数据以及相关的工具都可从日本基因网中获取。KEGG包含三个数据库:
- PATHWAY:通路,分子相互作用网络在基因层面的描述
- GENES:各种生物的基因组测序数据
- LIGAND:细胞中的化合物,酶分子,酶促反映
用户可以从途径(功能)信息开始自上而下进入KEGG系统,或者从基因组信息开始自下而上地进入KEGG系统。KEGG目录页面(http://www.genome.ad.jp/kegg/kegg2.html)。
基因组信息
GENES数据库
表1总结了目前的KEGG数据库现状。去年一年间,我们一直在努力跟上全基因组测序的数据,以及就要到来的测序爆发。GENES中仅29个物种的记录数(其中24个为全基因组测序)就有110000条,已经超过了注释良好的SWISS-PROT中的记录数。如表2展示的,GENES以最低限度信息来记录每个基因,但它旨在包括最新的标准化的基因功能描述。GENES同时提供一些具有更详细信息资源的链接。
我们开发了一系列计算工具来维持GENES数据库,尤其是从GenBank中提取数据来协助对基因功能的系统注释。图1阐释了计算和操作的整体流程。使用基于网络的注释工具和其他计算工具来分配EC编号,指定分配标识符,结合来自文献的新实验证据,以及基于途径构建来注释预测。 如下所述,使用同源基因标识来进行通路中基因组和基因产物的自动匹配。
基因表达文件
GENES的主要检索系统是DBGET/LinkDB,但是也有其他的连接方法。其中一个就是基于Java的genome map浏览器,可以用来对染色体上基因位置进行图形操作。里一个就是hierarchical text浏览器,用于处理基因目录的功能层次结构。这里我们介绍另一个Java图像化浏览器,expression map浏览器,用于处理由cDNA微阵列或寡核苷酸阵列实验产生的基因表达文件。由功能基因组学实验产生的大量数据蕴含大量的信息,可以补充基因组测序数据产生的信息,从而得到其中更高阶(系统化)的生物学功能。expression map浏览器的初始版本可以链接到KEGG通路数据库和基因组图谱数据库,因此用户可以检测一组具有相关性的基因是否在通路中仍然相关,或者由染色体上的某一类基因编码。
通路信息
PATHWAY数据库
目前整理的最好的KEGG/PATHWAY数据库就是代谢,通过大约90个代谢通路图来呈现。每一个通路都已看做是一些列酶(或者EC号码,酶的国际命名)组成的网络。通过测序上的相似和基因上的位置相关可以鉴定酶,继而进行命名得到EC号码,然后就可以通过基因组中的基因和通路中的酶构建物种特异的通路。我们尝试将这种通路构建方法推广到细胞凋亡,信号转导,细胞循环等过程,但是在调控通路构建上有两个主要的问题。
因为物种之间的代谢通路比较保守,所以容易先构建一个一般性的通路,在通过计算得到物种特异性的通路。但是调控通路物种间的差异比较大,很难得到一般通路,因此我们基因上为每一个物种构建调控通路。同时,我们正在尝试为不同物种的调控通路寻找共享的部分,或者那些部分是可以组装起来的。
另一个问题就是调控通路没有合适的识别元件。代谢通路中EC号码,作为识别点(酶)的 元件,同时指向基因信息。我们准备将同源基因扩展,实现类似EC号码的功能。用同源基因来标记调控通路中的点(蛋白),同时指向基因组信息。而且,同源基因将替代EC号码,因为存在多基因对应一个EC号码的现象,比如一个酶的不同亚基,不同基因在不同条件下的表达。
同源基因组表
KEGG中同源基因的确定,不仅通过测序上的相似,还检测所有组成成员是否在一个功能中,比如保守的子通路或者分子复合物。KEGG同源基因组有三个特征:
- 一个物种是否包组成一个功能的完整基因集
- 这些基因是否在染色体上耦合
- 什么是不同生物之间的直系同源基因
目前有61个直系同源基因组表,比如,基因组上编码代谢途径相关酶类的一类基因。在KEGG中这些基因类首先由启发式图形比较算法检测到,然后手动编辑并组装到同源基因组表上。我们使用两种图形对比方法:基因组-通路,基因组-基因组。直系同源组表是这种成对比较的复合物,代表该途径的保守部分,或者我们称之为途径基序。
生成蛋白-蛋白相互作用
KEGG通路主要采用蛋白网络的呈现方式(也含部分功能RNA)。如图2:
- 代谢通路是一个蛋白与蛋白之间间接作用的网络,实际上是酶关系网络
- 与之相对,调控通路常常由蛋白之间的直接作用组成,比如磷酸化
- 还有一些间接作用网络,比如转录因子和基因转录产物之间的作用
上述三种网络就是蛋白之间相互作用网络的主要类型,对于这些网络来说,联系相关的基因信息也十分重要。通过广义蛋白质 - 蛋白质相互作用网络的概念,我们正在扩展参考路径图的集合。