生物数据库介绍——NCBI
NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源。NCBI资源包括Entrez、Entrez编程组件、MyNCBI、PubMed、PudMed Central、PubReader、Gene、the NCBI Taxonomy Browser、BLAST、Pimer-Blast、COBALT、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、dbVar、Epigenomics、the Genetic Testing Registry、Genome和相关工具、比对查看器、跟踪存档、Sequence Read Archive、BioProject、BioSample、ClinVar、MedGen、HIV-1/人类蛋白质相互作用数据库、Gene Expression Omnibus、Probe、Online Mendelian Inheritance in Animals、the Molecular Modeling Database、the Conserved Domain Database、the Conserved Domain Architecture Retrieval Tool、Biosystem、Protein Clusters and thePubChem suite of small molecule databases,所有这些资源可以在NCBI主页找到。
Databases
一个提供有关基因组组装结构,装配名称和其他元数据,统计报告以及基因组序列数据链接等信息的数据库。
一个有关培养物、动植物样本和其他自然样本的精选元数据集。 记录显示样本状态,有关馆藏的机构的信息,以及NCBI中相关数据链接。
BioProject (formerly Genome Project)
基因组学,功能基因组学和遗传学研究的集合以及其结果数据集的链接。 此资源描述项目范围,材料和目标,并提供一种机制来检索由于注释不一致,多个独立提交以及通常存储在不同数据库中的各种数据类型的不同性质而经常难以找到的数据集。
BioSample数据库包含实验测定中使用的生物来源材料的描述。
根据生物关系对生物医学文献,小分子和序列数据进行分组的数据库。
可直接搜索或从其他NCBI数据库中的链接数据搜索的生物医学书籍集合。 该系列包括生物医学、其他科学主题书,GeneReviews等遗传资源和NCBI帮助手册。
储存人类变异与观察到的健康状况之间关系的记录以及支持证据的数据库。可以通过记录上的超链接访问NIH Genetic Testing Registry (GTR),MedGen,Gene,OMIM,PubMed相关信息。
世界各地公开和私人支持的临床研究的登记和结果数据库。
Computational Resources from NCBI's Structure Group
一个由对NCBI计算生物学分会(CBB)结构组开发的资源的访问和链接的集中页面。 这些资源包括帮助研究大分子结构,保守结构域和蛋白质分类,小分子及其生物活性,以及生物途径和系统的数据库和工具。
人类和小鼠一致注释和高质量的核心蛋白质编码区域。
Conserved Domain Database (CDD)
CDD是一种蛋白质注释资源,由一系列经过充分注释的古代结构域和全长蛋白质序列比对模型组成。
Database of Genomic Structural Variation (dbVar)
dbVar数据库储存了大规模基因组变异相关的信息,包括大插入,缺失,易位和倒位。 除了分类突变之外,dbVar还存储已定义突变与表型信息的关联。
Database of Genotypes and Phenotypes (dbGaP)
储存基因型和表型相互作用研究结果和描述的数据库,这些研究包括全基因组关联(GWAS)、医学重测序、分子诊断,以及基因型与非临床性状之间的关联。
Database of Short Genetic Variations (dbSNP)
数据库包含单核苷酸突变、微卫星和小规模插入和缺失信息。
NIH基因序列数据库,是所有公开可用DNA序列的注释集合。NCBI的GenBank数据库和日本DNA数据库(DDBJ),欧洲分子生物学实验室(EMBL)每天交换数据,保证数据实时跟新。 GenBank由几个部分组成,大部分序列可以通过Nucleotide数据库访问。 例外的是EST和GSS分区,分别通过Nucleotide EST和Nucleotide GSS数据库访问。
一个可搜索的基因数据库,专注于已经完全测序的基因组,并且有一个活跃的研究团体来提供基因特异性数据。基因信息包括命名法、染色体定位、基因产物及其属性(例如,蛋白质相互作用)、相关标记、表型、相互作用、引文链接、序列、突变详情、图谱、表达报告、同源物、蛋白结构域内容和外部数据库链接。
Gene Expression Omnibus (GEO) Database
公共功能基因组数据库,支持符合MIAME标准的数据提交。接受基于芯片和测序数据,并提供工具以帮助用户查询和下载实验数据并研究基因表达谱。
Gene Expression Omnibus (GEO) Datasets
存储从Gene Expression Omnibus(GEO)数据库组装的基因表达和分子丰度数据集。数据集每个记录包含其他资源,包括集群工具和差异表达式查询。
Gene Expression Omnibus (GEO) Profiles
存储从Gene Expression Omnibus(GEO)数据库组装的单个基因表达和分子丰度配置文件。 基于基因注释或预先计算的轮廓特征搜索感兴趣的特定配置。
NCBI Bookshelf上专家撰写的同行评审疾病描述集,将基因检测应用于具有特定遗传病症的患者和家属的诊断,管理和遗传咨询。
选定遗传疾病的信息摘要,讨论潜在的突变和临床特征,以及相关数据库和组织的链接。
Genetic Testing Registry (GTR)
基因测试和实验室记录,包括测量的详细信息,如测量和分析以及临床有效性。 GTR也是遗传条件信息的纽带,并提供与各种资源的特定背景相关的链接,包括实践指南,已发表的文献和遗传数据/信息。 GTR的最初范围包括孟德尔疾病的单基因测试,以及阵列,小组和药物遗传学测试。
包含来自1000多种生物的全基因组的序列和比对数据。 基因组代表完全测序的生物和正在进行测序的生物, 三个主要领域(细菌,古细菌和真核生物),以及许多病毒,噬菌体,类病毒,质粒和细胞器。
Genome Reference Consortium (GRC)
基因组参考联盟(GRC)负责人和小鼠参考基因组,成员包括华盛顿大学的基因组中心,Wellcome Trust Sanger研究所,欧洲生物信息学研究所(EBI)和国家生物技术信息中心(NCBI)。 GRC致力于纠正错误代表的位点并完善剩余的装配间隙。 此外,GRC寻求为复杂或结构变异的基因组位点提供替代组装。 在GRC网站(http://www.genomereference.org)上,公众可以查看目前正在审查的基因组区域,报告基因组相关问题并联系GRC。
HIV-1, Human Protein Interaction Database
已知HIV-1蛋白与人宿主蛋白相互作用的数据库。 它提供了已发表的蛋白质相互作用报告的注释书目,并附有相应PubMed记录和序列数据的链接。
描述在GenBank和RefSeq中注释的编码区中鉴定的蛋白质,以及SwissProt和PDB蛋白质序列的综合记录集合。 该资源允许研究人员获得更有针对性的搜索结果并快速识别感兴趣的蛋白质。
来自NIAID流感基因组测序项目和GenBank的数据集合,它提供了流感序列分析,注释和GenBank提交工具。 该资源还包含其他流感序列资源的链接,以及有关流感病毒的出版物和一般信息。
NLM目录数据库的子数据库,提供NCBI数据库记录中引用的期刊信息,包括PubMed摘要。支持期刊标题,MEDLINE或ISO缩写,ISSN或NLM目录ID搜索此数据库。
MeSH(医学主题词)是美国国家医学图书馆用于索引MEDLINE / PubMed文章的受控词汇表。MeSH术语提供了一种一致的方法来检索可能对相同概念使用不同术语的信息。
医学遗传学信息门户,MedGen包含来自多个来源的术语列表,并将它们组织成概念分组和层次分组。还提供了NIH Genetic Testing Registry (GTR),ClinVar,Gene,OMIM,PubMed和其它来源中的相关链接信息。
NCBI C++工具包综合手册,包括其设计和开发框架,C++库参考,软件示例和演示,常见问题解答和发行说明。该手册可在线搜索,可以下载为一系列PDF文档。
提供教程和培训材料的链接,包括PowerPoint幻灯片和打印讲义。
作为NCBI手册的一部分,本词汇表包含NCBI工具和首字母缩写词,生物信息学术语和数据表示格式的描述。
有关NCBI数据库和软件的文章集合。,专为新手用户设计,每篇文章都提供了资源及其设计的一般概述,以及搜索和使用可用分析工具的提示。所有文章都可以在线搜索并以PDF格式下载;该手册可以通过NCBI Bookshelf访问。
通过NCBI Bookshelf访问,帮助手册包含许多NCBI资源的文档,包括PubMed,PubMed Central,Entrez系统,Gene,SNP和LinkOut。所有章节均可以PDF格式下载。
NCBI Pathogen Detection Project
一个关于收集和分析源自食品,环境和患者分离物的细菌病原体基因组序列的项目。目前,自动化分析集群并识别主要由公共卫生实验室提供的序列,以协助调查食源性疾病爆发并发现潜在的食物污染源。
National Library of Medicine (NLM) Catalog
图书馆馆藏中所有期刊,书籍,视听,计算机软件,电子资源和其他资料的书目数据。
来自多个来源的核苷酸序列的集合,包括GenBank,RefSeq,第三方注释(TPA)数据库和PDB。
Online Mendelian Inheritance in Man (OMIM)
人类基因和遗传疾病的数据库。NCBI维护当前内容并继续支持其与其他NCBI数据库的搜索和集成。但是,OMIM现在在omim.org上有一个新主页,用户可以直接访问该站点进行全面显示。
来自比较研究的相关DNA序列的数据库:系统发育,种群,环境以及在较小程度上的突变。数据库中的每个记录都是一组DNA序列。例如,群体集提供有关生物体内遗传变异的信息,而系统发育集可以包含从几个相关生物获得的单个基因的序列及其比对。
用于各种生物医学研究应用的核酸试剂数据库,有关试剂比例、探针有效性和序列相似性等信息。
相关蛋白质序列(簇)的集合,由完整的原核和细胞器质粒和基因组编码的参考序列蛋白组成。 该数据库提供对注释信息,出版物,域,结构,外部链接和分析工具的轻松访问。
包含来自各种来源的蛋白质序列记录的数据库,包括GenPept,RefSeq,Swiss-Prot,PIR,PRF和PDB。
由沉积的生物活性数据和用于筛选PubChem物质数据库中包含的化学物质的生物活性测定的描述组成,包括筛选程序特有的条件和读数(生物活性水平)的描述。
包含可以使用名称,同义词或关键词搜索的,经过验证的唯一化学结构(小分子)。如果不同的研究者提供相同的结构,则复合记录可以链接到多个PubChem物质记录。这些化合物记录反映了用于描述PubChem物质中物质的经过验证的化学描述信息。
PubChem物质记录包含提交人提交给PubChem的物质信息,这包括提交的任何化学结构信息,以及化学名称,评论和提交人网站的链接。
MEDLINE和其他生命科学期刊的生物医学文献引文和摘要数据库。
全文生物医学和生命科学期刊文献,包括临床医学和公共卫生。
人类基因特异性参考基因组序列的集合。
由NCBI产生的主持的,非冗余的基因组DNA,转录物(RNA)和蛋白质序列的集合。
专门用于支持逆转录病毒研究的资源数据库
SARS冠状病毒(CoV)的数据摘要,包括与最新序列数据和出版物的链接,与其他SARS相关资源的链接,以及来自各种分离株的基因组序列的预先计算的比对。
序列读取存档(SRA)存储来自下一代测序平台的测序数据,包括Roche 454GSSystem®,Illumina GenomeAnalyzer®,Life Technologies ABSOLiDSystem®,HelicosBiosciencesHeliscope®,CompleteGenomics®和PacificBiosciencesSMRT®
Structure (Molecular Modeling Database)
包含源自蛋白质数据库的大分子3D结构,以及用于可视化和比较分析的工具。
包含NCBI数据库中具有分子数据的160,000多种生物的名称和系统发育谱系。
Third Party Annotation (TPA) Database
包含从GenBank中现有主序列数据构建的序列的数据库。
用于各种大规模测序项目的单次读取的DNA序列色谱图(迹线),碱基调用和质量估计的存储库。
广泛的资源,包括病毒生物学的简述、Entrez Genome中病毒基因组序列的链接,以及有关病毒参考序列的信息、数千个病毒基因组的参考序列的集合。
将流感病毒资源扩展到其他生物体,提供下载所选病毒序列集的界面,分析工具,包括病毒特异性BLAST页面和基因组注释管道。
Tools
一个交互式图形查看器,允许用户研究由1000 Genomes Project生成的突变、基因型和支持证据(例如,比对的序列read数)。
该工具允许用户通过比较它们的结构和化学性质,预测由突变引起的蛋白质序列变化,查看常见的取代,以及浏览保守结构域中给定残基的功能来探索氨基酸的特征。
将跟踪存档中找到的原始序列信息与公开可用的序列存储库(GenBank / EMBL / DDBJ)中的装配信息相链接。Assembly Viewer允许用户查看多序列比对以及实际序列色谱图。
对选定的完整真核和原核基因组中的相似序列进行BLAST搜索。
对RefSeqGene/LRG集中的基因组序列进行BLAST搜索。
此页面链接到许多与BLAST相关的教程和指南,包括BLAST算法的选择指南,BLAST输出格式的说明,独立BLAST参数的说明,在本地机器上设置独立BLAST的说明以及使用BLAST URL API。
Basic Local Alignment Search Tool (BLAST)
找到生物序列之间的局部相似性区域,该程序将核苷酸或蛋白质序列与序列数据库进行比较,并计算匹配的统计显着性。 BLAST可用于推断序列之间的功能和进化关系,以及帮助鉴定基因家族的成员。
允许你提交Nucleotide、Protein或其他Entrez数据库中的GI、登录号或其他唯一标识符的文件,从许多Entrez数据库中检索记录。
一个用于分类蛋白质序列和调查其进化关系的应用程序。CDTree可以导入,分析和更新现有的保守域(CDD)记录和层次结构,还允许用户创建自己的记录和层次结构。CDTree与Entrez CDD和Cn3D紧密集成,允许用户创建和更新蛋白质域对齐。
COBALT是一种蛋白质多序列比对工具,使用RPS-BLAST,BLASTP和PHI-BLAST找到从保守结构域数据库,蛋白质基序数据库和序列相似性衍生的成对约束的集合。
用于从NCBI的Entrez检索服务查看三维结构的独立应用程序。
作为NCBI Bookshelf的一部分,Coffee Break结合了近期生物医学发现的报告和NCBI工具的使用。每份报告都包含互动教程,展示NCBI生物信息学工具如何用作研究过程的一部分。
Conserved Domain Architecture Retrieval Tool (CDART)
显示构成给定蛋白质序列的功能域。它列出了具有相似结构域结构的蛋白质,并且可以检索含有特定结构域组合的蛋白质。
Conserved Domain Search Service (CD Search)
鉴定蛋白质序列中存在的保守结构域。
在常规Web查询界面之外提供对NCBI Entrez系统内数据访问的工具。
允许用户使用在线表单构建E-utility分析流程,然后生成Perl脚本以执行分析流程的工具。
Gene Expression Omnibus (GEO) BLAST
用于将查询序列(核苷酸或蛋白质)与包含在GEO数据库中的微阵列或SAGE平台上的GenBank序列对齐的工具。
在表和分类树中显示分类法数据库中生物的遗传密码。
该工具将核苷酸或蛋白质序列与基因组序列数据库进行比较,并使用基本局部比对搜索工具(BLAST)算法计算匹配的统计显着性。
用于真核RefSeq基因组装配的交互式导航的基因组浏览器,其具有对基因,表达,变异和其他注释的全面检查。(RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余non-redundent的基因和蛋白质序列。)
一种可帮助生成关于基因组组装注释和序列名称的期刊质量数字工具。
NCBI的重映射工具允许用户映射注释数据并将特征的位置从一个基因组版本转换为另一个,或通过碱基分析将RefSeqGene序列转换为RefSeqGene序列。
用于查看和分析序列数据的集成应用程序。
一种允许第三方直接从PubMed和其他Entrez数据库记录链接到Entrez系统之外的相关Web可访问资源服务。
Map Viewer(被genome data viewer取代了)
为生物的子集提供比对和组装序列的特殊浏览功能。
Multiple Sequence Alignment Viewer
一种交互式Web应用程序,使用户能够可视化由数据库搜索结果或其他软件应用程序创建的多个对齐。
提供有关新的和更新的资源以及NCBI研究和开发项目的信息。
NCBI用于生成分子生物学便携式模块化软件的一套软件和数据交换规范。
一个公共领域质量保证软件包,有助于根据实验室特定的协议评估多重短串联重复(STR)DNA谱。
Open Reading Frame Finder (ORF Finder)
一种图形分析工具,用于查找用户序列中或已存在于数据库中的序列中的所有开放阅读框。
允许用户从CDD记录或位置特异性迭代(PSI)-BLAST蛋白质搜索中显示,排序,子集和下载位置特异性评分矩阵(PSSM)。
Phenotype-Genotype Integrator (PheGenI)
支持通过表型,染色体位置,基因和SNP标识符查询人类表型/基因型关系。
Primer-BLAST工具使用Primer3设计序列模板的PCR引物。然后通过针对用户指定数据库的BLAST搜索自动分析潜在产品,以检查对目标的特异性。
用于计算蛋白质与基因组核苷酸序列的比对的实用程序。
PubChem Power User Gateway (PUG)
PUG通过编程接口提供对PubChem服务的访问。
PubChem Standardization Service
PubChem术语中的标准化是以与贡献者原始结构创建PubChem化合物记录相同的方式处理化学结构。
PubChem结构搜索允许通过化学结构或化学结构模式查询PubChem化合物数据库。
专门的PubMed搜索表,面向临床医生和医疗服务研究人员。该页面简化了临床研究类别的搜索,查找系统评价和搜索医学遗传学文献。
PubMed搜索和链接的一系列Web和Flash教程,使用MeSH和其他PubMed服务在MyNCBI中保存搜索。
相关结构工具允许用户从分子建模数据库(MMDB)中查找与查询蛋白质序列相似的3D结构。
SNP Database Specialized Search Tools
有多种工具可用于搜索SNP数据库,允许使用BLAST通过基因型,方法,群体,提交者,标记和序列相似性进行搜索。
Sequence Cytogenetic Conversion Service
一种在线工具,可转换人类,大鼠,小鼠和果蝇基因组装配的序列和细胞遗传学坐标。
提供核苷酸或蛋白质序列的可配置图形显示以及已在该序列上注释的特征。
用于计算cDNA到基因组序列比对的实用程序。
支持使用部分分类名称,通用名称,通配符和语音相似的名称搜索分类树。
为选定的一组生物生成分类树。用户可以上传分类标识或名称的文件,也可以直接输入名称或ID。
显示给定排名和包含日期的数据库中的分类节点数。
显示一组分类节点或ID的当前状态。
用于创建和显示系统发育树数据的工具。Tree Viewer可以分析您自己的序列数据,将可打印的矢量图像生成为PDF,并且可以嵌入到网页中。
用于搜索和查看dbSNP,dbVar和ClinVar数据库中列出的基因组变异的基因组浏览器。
一种用于快速鉴定可能是载体来源的核酸序列区段的系统。
Vector Alignment Search Tool (VAST)
一种识别相似蛋白质三维结构的计算机算法。
该工具有助于识别病毒序列的基因型。