今天早上难得清闲,学习了NCBI中一些数据库的知识,主要如下:
①refseq数据库,其中所有的数据都是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等,是经过NCBI筛选过的数据库,可信度很高。其ID通常表示为XX_123456,XX代表不同含义,如XM代表蛋白编码序列,NR代表非编码蛋白的mRNA序列等。
②Entrez 指的是一个综合性生物信息数据检索引擎,他包含了核酸、蛋白质、基因、基因组、GEO、pubMed等数据库,通常所说的去NCBI检索一下,这时的NCBI就是指Entrez.
其中Entrez ID指的是Entrez gene数据库的编号系统,各种Gene ID 可以相互转换,常用工具有:DAVID等
③GEO数据库,指的是NCBI中基因表达数据库,Gene Expression Omnibus,存储着各种高通量功能基因组数据集。
④Taxonomy数据库,是一个分类数据库,它只是努力整合各种各样来源的系统发育和分类学的知识,包括发表的文献、基于网络的数据库、序列提交者的建议以及来自NCBI 外部的分类学专家,通过它可以了解该物种在分类学上的地位,也可以在某一物种范围内对Entrez进行检索
⑤SNP单核苷酸多态性,一般多由单个碱基的转换(transition)或颠换(transversion)造成,目前研究很热,dbSNP数据库,单核苷酸多态性数据库,一般采用featureID即rs/ss1234567
⑥PubMed数据库,是一个提供生物医学方面的论文搜寻以及摘要的数据库,具有多种搜索方式,还可以使用通配符进行检索
⑦OMIM数据库,关于人类基因和遗传紊乱的数据库,
⑧NR相当于一个将核酸数据和蛋白数据联系起来的交叉索引,GenBank是核苷酸数据库,RefSeq是基因数据库,UniProt是蛋白质数据库