二级蛋白质数据库数目众多,我们挑几个常用的给大家介绍。
一、结构域家族数据库 Pfam
Pfam 数据库是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义。
比如 Toll 样受体蛋白:人的免疫系统中有许多种 Toll 样受体蛋白,所有这些种类的 Toll 样受体蛋白都可以分成三个结构域, 每个结构域行使不同的功能。胞外域用于识别不同的入侵物,跨膜区穿膜,胞内域用于胞内信号转导。
另一个免疫蛋白 MyD88,存在于胞内。它与 Toll 样受体的功能不同,但它有一个和 Toll 样受体胞内域相同的结构域。这两个不同蛋白上的相同结构域可以相互结合以激活下游的信号传导。
因此,如果我们能够探明一个未知功能的蛋白质上有哪些已知的结构域, 那我们就大致可以推测出它的功能。
Pfam 主页上的搜索工具可以帮助我们查找某条序列上有哪些结构域。
最后一个是 TIR 结构域,也就是我们刚才说的 Toll 样受体蛋白的胞内域。
点击胞内域查看详细信息如下:
Summary 里可以获得这个结构域的功能注释以及结构信息。
Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。
Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库 UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。
二、CATH 数据库
根据结构域的空间特征可以对结构域进行分类。
CATH 和SCOP 是两个重要的蛋白质结构分类数据库。
CATH 数据库由伦敦大学1993 年创建。CATH的名字C、A、T、H 是数据库中四种结构分类层次的首字母。
所有蛋白质结构域在CATH 中被首先分成4 种CLASS,这就是C。四种CLASS 分别是全α型,全β型, α +β型,低二级结构型。比如图中第一行这三个蛋白质,很显然左边是全α的,右边是全β的,中间是 α +β的。
每一个Class 中的结构域又被具体分为不同的architecture,也就是A。A 这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个class 下的结构可以进一步分为桶状的,三明治状的,还有滚轴状等Architecture。
每种Architecture 里的结构域,又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的topology,也就是T。
最后再通过序列比较以及结构比较确定同源性分类,划分出不同的homologous superfamily,也就是H。
这样每个结构从粗到细,即从A 到H,会有四个层次的分类。
注意:结构分类是以结构域为单位进行的,而不是针对整个蛋白。所以PDB 中的一个蛋白质结构可能对应CATH中多个结构域分类。CATH 在分类时既使用计算机程序,也进行人工检查。
CATH 为每一层的每一种结构分类命名,并用数字代号代表这一分类。因此每个结构域会具有一个分类代码。
第一个数字是C 这一层的分类代码,第2 个数字是A 这一层的分类代码,第3 个数字是T 这一层的分类代码,第4 个数字是H 这一层的分类代码。
目前CATH 已为PDB 数据库中10 多万个蛋白质结构所涉及的30 多万个结构域进行了结构分类,这些分类可以归入两千七百多个蛋白质超家族中。此外,CATH-Gene3D 还为超过500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析3D 结构的蛋白质提供了重要的功能研究依据。
接下来,我们从CATH 数据库搜索一个PDB 结构的分类信息。
搜索条输入3H6X,这是我们在PDB 数据库里查看过的dUTPase 的结构。
结果显示dUTPase 蛋白的结构分类代码是2.70.40.10。点击这个分类代码,可以获得各层次具体的结构分类信息以及各种结构相关分析信息。
结果页面的下半部分还提供聚类图。这里,CATH 把所有拥有2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类(如下图)。不同深浅的圈代表不同的序列相似度。通过这张图,我们可以了解到具有相同结构分类的蛋白质他们在序列水平上的亲缘关系远近。
此外,CATH 还从2.70.40.10 这个结构分类里挑出了19 个有代表性的结构域,并且把他们的3D 结构叠加在了一起(图3)。从这个图上,我们可以看到这个结构分类的总体特征以及差异产生的位置
三、结构分类数据库SCOP 2
SCOP 数据库与CATH 类似,也属于蛋白质结构分类数据库,但SCOP 的分类原则更多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。
和CATH 一样,SCOP 的结构分类也基于四个层次。
第一层也叫Class,也是基于二级结构成分分类。
Class 之下是Fold,主要考虑结构的空间几何关系。
再往下是Superfamily,基于远源的蛋白质进化关系分类。
最后是Family,基于近源的蛋白质进化关系分类。
注意:SCOP 和CATH 里面都有提到Superfamily这个词,但两者的含义并不相同。CATH 里Superfamily 是指的从C 到A 到T 再到H 这样四层的一个精细结构分类。而Scop 中,Superfamily 是结构分类的第三个层次的名称。
目前,SCOP 已升级为SCOP2。SCOP2 的主页上也有搜索条,可以查看某一个PDB 结构的结构分类。
搜索结果中的第2 到第5 条,就是该蛋白质结构的四层分类。
第一层Class,第二层Fold,第三层Superfamily,第四层Family。
第一层Class 之上是SCOP 数据库的根。
第4 层family 之下是这个蛋白质的名字,再往下是所属物种。
虽然从这个谱系上看有7 个层次,但实际上真正的结构分类只有中间四层。