生物数据库
一级核酸数据库
NCBI https://www.ncbi.nlm.nih.gov/
EBI
DDBJ
insdc http://www.insdc.org/ 由三大数据库集合资源,共同维护。
示例:
搜索原核生物dUTPase基因,输入“X01714 ” 到Nucleotide 数据库= Genbank 数据库;基因的名字唯一一个,版本号有多个(更新时间,不同数据库)
https://www.ncbi.nlm.nih.gov/nuccore/X01714搜索编码真核生物人dUTPase的成熟mRNA序列信息:U90223 (mRNA检索号)
https://www.ncbi.nlm.nih.gov/nuccore/U90223搜索编码真核生物人dUTPase的基因组DNA序列信息:AF018430, gene="DUT"
https://www.ncbi.nlm.nih.gov/nuccore/AF018430.1?report=genbank
基因组数据库
Ensemble http://www.ensembl.org/ (由EBI和sanger维护)
UCSC http://genome.ucsc.edu/
微生物宏基因组数据库
JCVI http://www.jcvi.org/cms/home/
人类基因组计划 http://hmp.jcvi.org/
二级核酸数据库
- RefSeq 参考序列数据库 https://www.ncbi.nlm.nih.gov/refseq/
- dbEST 表达序列标签数据库 https://www.ncbi.nlm.nih.gov/dbEST/
- Gene 提供基因序列注释和检索服务 https://www.ncbi.nlm.nih.gov/gene
- Nocoding RNA database 非编码RNA数据库 http://biobases.ibch.poznan.pl/ncRNA
- miRBase micoroRNA序列及注释 http://www.mirbase.org/
一级蛋白序列数据库
Swissport 人工注释蛋白序列数据库,可信度高
TrEMBL 计算机注释的蛋白序列数据库,剔除Swissprot中的序列。冗余度高、可信度低 (EBI、SIB共同管理)
PIR 蛋白质信息资源数据库,蛋白质组学和系统生物学研究的综合公共生物信息学资源(GUMC维护)
-
Uniprot 数据库 http://www.uniprot.org/(Swissprot、TrEMBL、PIR联合蛋白质序列数据库,Universal Protein Resource,Uniprot)
- 第一层 UniParc:收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。
- 第二层 UniRef:他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。
- 第三层 UniProtKB,他有详细注释并与其他数据库有链接,分为 UniProtKB 下的 Swiss-Prot
和 UniProtKB 下的 TrEMBL 数据库。(我们最常用)
示例
- 在Uniprot 数据库搜索“human dutpase”,
http://www.uniprot.org/uniprot/?query=human+dutpase%E2%80%9D&sort=score
检索结果
- Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号
- Entry_Name 是检索名,检索号与检索名平行运行,都是一条序列在数据库中的唯一标识
- 加星文档图标 代表Swissport中的数据
- 物种信息
检索注释
- Function,功能这部分注释很详细的说明了这个蛋白质的功能。
- Names & Taxomomy 给出了蛋白质的各种名字,包括全称、缩写以及别名。
- Subcellular location:提供蛋白质亚细胞定位(subcellular localization)的信息。
- Pathology & Biotechnology:提供蛋白质突变或缺失导致的疾病及表型信息。
- PTM/Processing:提供蛋白质翻译后修饰或翻译后加工的相关信息。
- Expression:提供了基因在 mRNA 水平上的表达信息,或者在细胞中蛋白质水平上
的表达信息,或者在不同器官组织中的表达信息。 - Interaction:提供了蛋白质之间相互作用的信息。
- Structure:提供蛋白质二级结构和三级结构信息。
- Family & Domains:提供蛋白质家族及结构域信息。
- Sequence:提供蛋白质氨基酸序列信息。
- Cross-references:列出了所有通往其他含有该蛋白质信息的数据库的链接。
- Publications:列出了有关这个蛋白质已发表的所有文献的信息。
- Entry information:提供有关这条数据库记录的录入信息,外加一个免责声明。
UniProtKB 纯文本(Flat File)格式数据库记录条目索引含义表
一级蛋白结构数据库
蛋白质的结构可以分为四级。
- 一级结构也就是所谓的氨基酸序列。
- 二级结构是我们熟悉的α螺旋和β折叠等。
- 三级结构是蛋白质的三维空间结构。
- 四级结构是几个蛋白质分子的复合体结构。
PDB 蛋白质结构数据库 PDB
http://www.rcsb.org/pdb/home/home.do
是全世界唯一存储生物大分子 3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。
示例
- 在PDB数据库,搜索“Su X D dUTPase”
搜索结果:
http://www.rcsb.org/pdb/explore/explore.do?structureId=3H6X
http://www.rcsb.org/pdb/results/results.do?tabtoshow=Current&qrid=48C5EBE8
数据库检索号 PDB ID “3H6X”
结构信息存储在 PDB 格式的一个纯文本文件里,这种文件叫做 PDB文件。PDB 文件都是以 PDB ID 命名,以“.PDB”为后缀,可以用记事本打开。
PDB数据库,主要来源的实验方法是: X-RAY DIFFRACTION;少数是NMR核磁共振法。
一级蛋白质结构数据库:PDB 文件注释解读
第一部分:头信息
HEADER:蛋白质结构的基本信息描述,包括分子类别,存储日期,PDB ID
TITLE:结构的标题
COMPND:对结构中各个分子的描述。从这里可以看出 3H6X 这个结构是由三条链形成
的三聚体结构。
SOURCE:结构中所包括的每一个分子的实验来源。
KEYWDS:用于数据库搜索的关键词
EXPDTA:测定结构所采用的实验方法。PDB 中绝大部分结构都是通过 X 射线衍射法测
定的,少数是核磁共振法,极少数是使用包括电子显微镜在内的其他方法测定的。
AUTHOR:作者信息
REVDAT:历史上曾经对该数据库记录进行过的修改。
JRNL:发表结构的文献信息。
REMARK:无法归入其他部分的注释。
第二部分:一级结构信息(也就是氨基酸序列)
DBREF:该蛋白质在蛋白质序列数据库里的检索号等信息。
SEQRES:氨基酸序列。
MODRES:对标准残基上的修饰,比如第 56 号位置的蛋氨酸被硒代蛋氨酸所取代。
第三部分:非标准残基信息
HET:非标准残基及位置。
HETNAM:非标准残基的化学名称。
FORMUL:非标准残基的化学式。
第四部分:二级结构信息
HELIX:位于螺旋结构上的氨基酸所在位置及所属链。
SHEET:位于折片结构上的氨基酸所在位置及所属链。
TURN:位于转角结构上的氨基酸所在位置及所属链。
Link:残基间的化学键。比如 106 号氨基酸上的 C 与 107 号氨基酸上的 N 之间的化学
键是肽键!键长 1.32 埃。除了肽键还可能有氢键,二硫键等等。
第五部分:实验参数信息
CRYST1:晶胞参数。
ORIGXn:直角-PDB 坐标。
SCALE*:直角部分结晶学坐标。
第六部分:3D 坐标信息
ATOM:PDB 文件中最重要的,也是篇幅最长的就是 3D 坐标部分。
CONECT:原子间化学键连接信息。
MASTER:版权拥有者信息。
END:结束符。
PDB 文件 3D 展示-Jsmol
PDB 数据库就提供这样一个在线的可视化软件,叫 JSmol
(JSmol 基于 JAVA 开发,所以需要先安装 java 运行环境。可以使用360浏览器)
3D结构图:
http://www.rcsb.org/pdb/explore/jmol.do?structureId=3H6X&bionumber=1
通过Style、Color可以更改图片风格
改变类型:
改变颜色:
二级蛋白质结构数据库:
结构域家族数据库 Pfam
http://pfam.xfam.org/
是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。
蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。
示例
在搜索窗口:http://pfam.xfam.org/search,输入蛋白质fasta序列,查到结构域。
输入:Toll 样受体蛋白, pfam.fasta 文件,查找TIR 结构域
Summary 里可以获得这个结构域的功能注释以及结构信息。
Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。
Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库。
UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。
结构分类数据库 CATH/Gene3D
根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结构分类数据库。
CATH这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。
所有蛋白质结构域在 CATH 中被首先分成 4 种 CLASS
示例
进入CATH数据库,对PDB数据库分类的更新情况。
搜索“3H6X”,得到分类代码“2.70.40.10”
详情页:http://www.cathdb.info/version/latest/superfamily/2.70.40.10
CATH 还从 2.70.40.10 这个结构分类里挑出了 19 个有代表性的结构域,并且
把他们的 3D 结构叠加在了一起(图 3)。从这个图上,我们可以看到这个结构分类的总体特
征以及差异产生的位置。
CATH 把所有拥有 2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类
二级蛋白质结构数据库:结构分类数据库 SCOP2
http://scop2.mrc-lmb.cam.ac.uk
SCOP 数据库与 CATH 类似,也属于蛋白质结构分类数据库,但 SCOP 的分类原则更
多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。
示例
- 在SCOP数据库,搜索“2BOP”
专项数据库
京都KEGG,全称京都基因与基因组百科全书
示例
- 进入KEGG数据库http://www.genome.jp/kegg/
子数据库
Data-oriented entry points
KEGG PATHWAY KEGG pathway maps 代谢通路(最常用)
KEGG BRITE BRITE hierarchies and tables
KEGG MODULE KEGG modules
KEGG ORTHOLOGY KO functional orthologs [Annotation] KO功能通路
KEGG GENOME Genomes [Virus | Plant] 基因组
KEGG GENES Genes and proteins [SeqData] 基因和蛋白
KEGG COMPOUND Small molecules 小分子
KEGG GLYCAN Glycans
KEGG REACTION Biochemical reactions [RModule]
KEGG ENZYME Enzyme nomenclature
KEGG NETWORK Disease-related network elements New! 疾病相关网络
KEGG DISEASE Human diseases [Cancer | Pathogen] 人类疾病
KEGG DRUG Drugs [New drug approvals] 药物
KEGG PATHWAY
又分为7个部分:
1)Metabolism,
2)Genetic Information Processing,
3)Environmental Information Processing,
4)Cellular Processes,
5)Organismal Systems,
6)Human Diseases,
7)Drug Development。
其中 Metabolism 代谢通路这部分,又具体分为几个专题:
1)Global/overview,2)Carbohydrate,3)Energy,4)Lipid,5)Nucleotide,6)Amino acid,7)Other amino,8)Glycan,9)Cofactor/vitamin,10)Terpenoid/PK,11)Other secondary metabolite,12)Xenobiotics,13)Chemical structure。
从1)Global/overview,进入Metabolic pathways
网络通路图
http://www.genome.jp/kegg-bin/show_pathway?map01100
调整图片为100%,点击圆圈,进入三羧酸循环详细通路图
http://www.genome.jp/kegg-bin/show_pathway?map00630
点击其中一个酶,进入KO数据库,表示蛋白质或酶的分类体系。
KO号代表蛋白质(酶)的一个分类体系,序列高度相似,并且在同一个通路上有相同功能的蛋白质被归为一组,然后打上KO标签
http://www.genome.jp/dbget-bin/www_bget?C00036
查看Toll-like受体传导通路
Pathway Maps》Organismal Systems 》04620Toll-like receptor signaling pathway
http://www.genome.jp/kegg-bin/show_pathway?map=hsa04620&show_description=show
点击,TLR4受体
http://www.genome.jp/dbget-bin/www_bget?hsa:7099
查看引发疾病
Disease H00821 Age-related macular degeneration 黄斑变性
查看相关药物
Drug target Eritoran (DG01426): D04043 D09573
点击 D09573
http://www.genome.jp/dbget-bin/www_bget?dr:D09573
人类孟德尔遗传在线 OMIM
http://www.omim.org/ 或者NCBI子数据库 http://www.ncbi.nlm.nih.gov/omim
它是一个将遗传病分类并链接到相关人类基因组中的数据库。OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。
示例
- 搜索阿尔茨海默症,“alzheimer disease”,
进入详情页
http://www.omim.org/entry/104300?search=alzheimer%20disease&highlight=alzheimer%20disease
查看某一个染色体位置
http://www.omim.org/geneMap/6/127?start=-3&limit=10&highlight=127
查看某一个基因信息
http://www.omim.org/entry/613609