现在多组学研究很火,今天小编给大家介绍几个蛋白组学和转录组学联合分析实用数据库:
1 CRN(Cancer RNA-Seq Nexus)数据库
数据库说明:
这个数据库收录了来自于The Cancer Genome Atlas (TCGA), Sequence Read Archive (SRA) 和 NCBI Gene Expression Omnibus (GEO) 合计89个肿瘤数据集12,167个样品的转录组数据,并且每个肿瘤样品都有对应表型信息(如TNM分型、grade高低、分子分型等),以便于大家针对同一肿瘤不同分型之间进行比较。网站主要包括了三个模块:不同分组差异表达比较、共表达调控网络分析、候选基因表达量查询。这个数据库能够很方便的在线进行分析,但能够批量下载的只有部分数据:28种癌症中差异表达的mRNA和27中癌症中差异表达的lncRAN。
以肾上腺皮质癌为例,数据库中收录内容如下:
2 外泌体数据库 ExoCarta
数据库说明:
外泌体是一类可以由多种细胞类型分泌的胞外囊泡,与其他胞外囊泡如核外颗粒体和凋亡小体不同,外泌体是内吞起源的。外泌体在疫苗、药物递送、细胞间通信的作用以及其作为生物标志物的一种可能来源以及引起了研究人员的极大兴趣,导致外泌体相关研究呈现井喷趋势。ExoCarta(http://www.exocarta.org)数据库是一个关于外泌体蛋白、RNA、脂质体的手工数据库,到目前为止,ExoCarta数据库主要整合来自于已经发表或尚未发表的文献资料的相关研究,自从2009年发布以来,该数据库已经被超过16000名独立研究人员使用。这些外泌体研究主要集中于三个方面:1,外泌体在细胞间信号传递的作用;2,作为疫苗或药物运输的载体;3,疾病标志物的可能来源。
到目前为止,该数据库已经收录了286份研究,包含41860种蛋白条目,9769种蛋白质,4946种mRNA条目,3408种mRNA,2838种miRNA,1116种脂质条目,数据内容如下:
以EXOCARTA_PROTEIN_MRNA_DETAILS_5.txt为例,数据收录内容如下:
3 人类外泌体数据2 exoRBase
数据库说明:
人类血液外泌体的RNA-seq数据分析的circRNA、LncRNA和mRNA的存储库,还包括已发表文献的实验验证。exoRBase对标准化RNA-seq数据的RNA表达谱进行了整合和可视化,数据涵盖了正常个体和不同疾病患者。exoRBase数据库收集和描述人类血液外泌体中所有长的RNA,目前包含58330个circRNA、15501个LncRNA和18333个mRNA,提供了注释、表达水平和可能的来源组织,数据库将定期更新,提供更多的外泌体RNA信息。
数据库可下载数据包括:
4 转录因子数据库AnimalTFDB(humanTFDB)
网址:http://bioinfo.life.hust.edu.cn/AnimalTFDB/#!/
数据库介绍:
转录因子(Transcription factor,TF)是一类能够以序列特异性方式结合DNA并对基因转录起关键调控作用的蛋白质,在各种生物过程和疾病发生中起非常关键的作用。鉴定、分类和注释转录因子以及分析转录因子的调控和功能等一直是研究的热点和基础,它们在生物体内形成一套指导基因表达的复杂系统引得众多科学家浓厚的研究兴趣。(****AnimalTFDB****)是华中科技大学生命科学与技术学院郭安源教授团队开发的动物转录因子注释和预测数据库。AnimalTFDB数据库建设工作于2011年11月完成了第一版,至今持续维护和更新了7年,三个版本的文章分别都发表在牛津大学出版社(Oxford University Press)出版物《核酸研究》(Nucleic Acids Research)(2017年影响因子11.56),最新的3.0版本文章于2018年9月11日在线发表(https://doi.org/10.1093/nar/gky822)。AnimalTFDB 3.0版本中作者鉴定、分类和注释了97****个物种全基因组水平的125,135个TF基因和80,060个转录辅因子基因。其中,根据转录因子DNA结合结构域(DBD),将TF进一步分为73个家族,根据TF辅助因子功能分为83个家族。新版本除了在数据上的扩展外,还提供多种搜索浏览方式(Famliy
、Species
或自定义搜索
)、2个在线预测工具Predict TF
和Predict TFBS
(分别可以批量预测转录因子和预测DNA序列上的转录因子结合位点)、Blast
工具和数据下载
功能。因为人类转录因子使用的广泛需求,作者在新版AnimalTFDB数据库中单独设计了一个人类TF数据库网络界面(HumanTFDB
:http://bioinfo.life.hust.edu.cn/HumanTFDB/)。HumanTFDB可下载的资源包括:
以Homo_sapiens_TF为例,收录内容如下:
5 数据库简称CTD
比较基因组数据库(Comparative ToxicogenomicsDatabase, CTD)数据库是一个强大的公开数据库,旨在促进对环境暴露如何影响人类健康的理解。 它提供有关化学基因/蛋白质相互作用,化学-疾病和基因-疾病关系等信息。且将这些数据与功能和途径数据相结合,以帮助研究者更好的理解关于环境影响疾病机制。其中CTD包含基因-疾病关联从已发表的文献中提取或者从OMIM数据库获得,基因-生物学通路,来自信号通路数据库KEGG(https://www.kegg.jp/)和REACTOME(http://reactome.ncpsb.org/)。
鉴定到的蛋白或者样本间显著差异的蛋白通过CTD数据库的注释,获得基因、功能通路和疾病三者之间的相关性,丰富疾病机制的认识。数据内容包括:
注:该数据库已用于医学蛋白组注释
6 人类蛋白互作数据库HPRD
数据库说明:
HPRD全称Human Protein Reference Database, 是一个专门存储人类蛋白质相互作用信息的数据库,和其他同类数据库相比,该数据库中存储的蛋白质互作信息都是经过实验验证的,而且数量上有明显优势。HPRD还提供了蛋白质的表达谱,分类,结构域,亚细胞定位,转录后修饰,通路等其他信息,该数据库最新版为release 9, 其中的信息统计如下:
在检索结果页面,可以看到该蛋白质各种注释信息,包括分子量,序列等基本信息,也包括亚细胞定位,蛋白结构域,相互作用,GO注释等信息。通过Browse
功能,可以查看指定类别的蛋白质信息, 可以根据分子类别,转录后修饰,亚细胞定位,结构域等信息进行筛选和查看。
该数据库的信息是可以下载的,但是只是学术免费, 示意如下对于蛋白质相互作用的信息,提供了Tab
和XML
两种格式供下载。
7 人类蛋白质图谱数据库简称HPA
网址:https://www.proteinatlas.org/
数据库介绍:
Human Protein Atlas 数据库,简称HPA数据库,它致力于提供全部24,000种人类蛋白质的组织和细胞分布信息,并免费提供公众查询。创立这个数据库的瑞典 Knut & Alice Wallenberg基金会使用特制的抗体,用免疫组化的技术,检查每一种蛋白质在48种人类正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员阅读和标引。这些受检组织来自144个不同个体和216个肿瘤组织,保证染色结果具有充分的代表性。这是一个大规模蛋白质研究项目,主要目的是绘制人体组织和细胞中表达基因编码的蛋白位置。由三个独立的部分组成,每个部分都集中在人类蛋白质全基因组分析的特定方面。组织图谱显示蛋白质在人体内所有主要组织和器官中的分布,细胞图谱显示蛋白质在单细胞中的亚细胞定位,最后是病理学图谱显示蛋白质水平对癌症患者存活的影响。人类蛋白质图谱计划已经为人类生物学和疾病领域做出了巨大的贡献,由ELIXIR(www.elixir-europe.org)组织选择作为欧洲核心资源,更广泛的应用于生命科学界。
可下载文件包括以下: