一般说明
从MSigDB 7.0开始,我们现在使用 Ensembl 作为平台注释权限。基因标识符通过从 Ensembl 的 BioMart 数据服务中提取的注释映射到其 HGNC 批准的基因符号和 NCBI 基因 ID,并将在每个 MSigDB 版本中更新与 Ensembl 的最新可用版本。
H 集合:标志基因集
我们将此集合设想为您探索 MSigDB 资源和 GSEA 的起点。霍尔马克基因集总结并代表特定的明确定义的生物状态或过程,并显示连贯的表达。这些基因集是由基于识别基因集重叠和保留显示坐标表达的基因的计算方法生成的。这些标志可减少噪音和冗余,并为 GSEA 提供更好的生物空间。我们提到原始重叠的基因集,从中得出一个标志,作为它的"创始人"集。霍尔马克基因集页面提供链接到相应的创始人集更深入的后续行动。
本集合是 50 个标志的初始版本,这些标记浓缩了 v4.0 MSigDB 集合 C1 到 C6 中 4,000 多个原始重叠基因集
的信息。我们称原始基因集为"创始人"集。
霍尔马克基因集页面提供链接到相应的创始人集更深入的
探索。此外,标志基因集页面还包括指向微阵拉数据的链接,这些数据用于完善和验证标志签名。
如要引用您对收藏的使用,欲了解更多信息,请参阅利伯松 A、比尔格 C、索瓦尔德斯德尔 H、甘迪 M、梅西罗夫 JP、塔马约
P。分子签名数据库 (MSigDB) 标志基因集集合。细胞 Syst. 2015 十二月 23:1 (6): 417-425.
C1 集合:位置基因集
本集合的基因注释来自 Ensembl BioMart 的染色体和 Karyotype 波段轨道(参见当前版本的 MSigDB 发布注释),并反映了原始组件上所示的基因结构。细胞遗传带中的分号被忽略。例如,5q31.1被视为5q31。因此,注释为 5q31.2 的基因和注释为 5q31.3 的基因都放在同一组 5q31 中。这些基因集可以帮助识别与染色体缺失或放大、剂量补偿、表观遗传沉默和其他区域效应相关的影响。
C2 集合:精心策划的基因集
本系列中的基因集由各种来源策划,包括在线通路数据库和生物医学文献。许多集也由各个域名专家贡献。每个基因集的基因设置页面列出其来源。C2 集合分为以下两个子集合:化学和遗传扰动 (CGP) 和规范通路 (CP)。
>C2子集合CGP:化学和遗传扰动
代表遗传和化学扰动的表达特征的基因集。
大多数CGP集来自生物医学
文献。在过去几年中,微阵拉研究已经确定了几个重要的生物和临床状态(如癌症转移,干细胞特征,耐药性)的特征。C2 系列使许多这些签名(最初以表格身份在纸张中发布)作为基因集提供。为此,我们编制了一份带有已发表基因表达特征的微阵列文章列表,并从每篇文章中从主文本或补充信息表中提取一个或多个基因集。其中许多基因组成对出现:xxx_UP(和xxx_DN)基因集,代表由扰动诱导(和压抑)的基因集。大多数CGP集是从出版物中精心策划的。它们包括指向PubMed引文的链接、集的确切来源(例如表 1),以及指向GEO或阵列快递存储库中任何相应原始数据的链接。当基因集涉及遗传扰动时,该集的简要描述包括指向该基因进入NCBI(Entrez)基因数据库的链接。当基因集涉及化学扰动时,该集的简要描述包括一个链接到该化学品进入NCBI PubChem化合物数据库。
其他 CGP 基因集
包括:
- 华盛顿大学公布的微阵列基因表达数据L2L数据库提供的基因集。见纽曼 Jc, 韦纳上午。L2L:发现微阵列表达数据中隐藏意义的简单工具。基因组生物2005:6(9):R81。另见 http://depts.washington.edu/l2l。
- 基因集由约翰霍普金斯大学医学院MYC目标基因数据库的Chi Dang博士策划。见泽勒基,杰加股份公司,阿罗诺BJ,奥唐纳卡,当CV。响应Myc肿瘤转录因子的基因综合数据库:直接基因组靶点的识别。基因组生物2003:4(10):R69。
- 一些人为这个集合贡献了基因集。基因集注释包括一个"贡献者"字段,该字段按名称/附属性确认贡献者。
> C2 子集合 CP:规范路径
通路基因集由以下在线数据库进行精制:
- 生物卡塔:http://cgap.nci.nih.gov/Pathways/BioCarta_Pathways。另请注意,这些基因集在MSigDB许可证的特殊条款。
- 凯格:http://www.pathway.jp。另请注意,这些基因集在MSigDB许可证的特殊条款。
- 母体项目:来自麻省理工学院的海因斯实验室http://matrisomeproject.mit.edu.另见纳巴 A, 克劳瑟 Kr, 赫尔施 S, 刘 H, 卡尔萨, 海因斯罗。母体:在西里科定义和体内特征由正常和肿瘤细胞外矩阵的蛋白质组学。熔细胞蛋白质组学。2012年4月11日(4):M111.014647。
- 路径交互数据库:国家癌症研究所(NCI)通路交互数据库(PID)http://pid.nci.nih.gov。现在可通过由加州大学圣地亚哥分校Ideker实验室托管的NDEx数据库(http://www.ndexbio.org)获得。
- 反应:反应基因组集来自反应组,并已过滤以消除集间冗余(参见当前包含的反应组版本的MSigDB 发布说明)。http://www.reactome.org
- 西格玛·阿德里希:http://www.sigmaaldrich.com/life-science.html
- 信号网关:信号网关由加州大学圣地亚哥分校的圣地亚哥超级计算机中心主办。http://www.signaling-gateway.org.
- 超级阵神:http://www.sabiosciences.com/ArrayList.php
- 维基路径:维基路径基因集直接从维基路径数据库的最新版本中检索(参见当前包含的维基路径版本的MSigDB 发布说明)。https://www.wikipathways.org/
C3集合:调节目标基因集
基因集代表按转录因子或微RNA调节的潜在目标。这些集由基因组成,由它们共同的调节元素分组。主题代表促销员和 3'-UTR 中的已知或可能的 cis 监管元素。这些基因集使表达分析实验的变化与假定cis-调节元素联系起来成为可能。C3 集合分为两个子集合:微RNA靶点 (MIR) 和转录因子目标 (TFT)。
>C3子集合MIR:微RNA目标
-
米德布:这些集包括使用MirTarget算法(刘和王,2019年)计算预测的miRNA的人类基因目标。数据来自miRDB v6.0(mirdb.org、陈和王,2020年)目标预测,MirTarget得分为80>(高信心预测)。miRNA 编目在 miRDB v6.0 中来自 miRBase v22 (2018 年 3 月)。
刘伟军、王晓伟(2019)通过微RNA绑定和目标表达数据的综合建模预测功能微RNA目标。基因组生物学。20 (1):18.
陈玉浩和王晓伟(2020)miRDB:功能微RNA目标预测的在线数据库。核酸研究。48 (D1) :D 127-D131.
MIR_Legacy:( 这些是旧基因集, 以前代表 C3:MIR 子集合之前, MSigDB v7.1).这些集由基因组成,在其3'未翻译的区域共享7核苷酸图案。每7-mer图案匹配(是补充)成熟人类微RNA(miRNA)的种子(基地2至8)编目在v7.1的miRBase(2005年10月)。
> C3 子集合 TFT:转录因子目标
-
格特:预测在其促进区域(转录启动站点周围为-1000,+100 bp)中包含转录因子结合位点的人类基因集,用于指示转录因子。基因集来自基因转录调节数据库 (GTRD,gtrd.biouml.org)统一处理管道,并代表每个转录因子的潜在监管目标候选列表(参见MSigDB 发布说明,当前包含 GTRD 版本)。
-
TFT_Legacy:(这些是较旧的基因集,以前代表 MSigDB v7.1 之前的 C3:TFT 子集合)。基因集共享上游cis- 监管主题,可以用作潜在的转录因子绑定位点。我们使用两种方法来生成这些主题基因集。
- 基因组的"保存实例"包括推断的目标基因,每个主题m的174个图案高度保存在四个哺乳动物物种(人类,小鼠,老鼠和狗)的促进者。这些图案代表潜在的转录因子结合点,并按谢 X、Lu J、库尔博卡斯 EJ、Golub TR、Mootha V、林德布拉德-托克、兰德 ES、凯利斯 M. 通过比较几种哺乳动物,系统地发现人类促进者的调控主题和 3' UTR 进行编目。自然界。2005年3月17日:434(7031):338-45。每个基因集由所有人类基因组成,其发起人包含至少一个保存的图案m实例,其中发起人被定义为包含在转录启动站点 (TSS) 中心的 4 千基窗口内的非编码序列。
- 哺乳动物转录监管主题从 v7.4 TRANSFAC 数据库中提取(参见谢等人的补充数据)。每个基因集都由所有人类基因组成,其发起人至少包含一个保存的 TRANSFAC 主题实例,其中发起人被定义为以转录开始站点 (TSS) 为中心的 4 千基窗口内包含的非编码序列。
C4集合:计算基因集
计算基因集由挖掘大量面向癌症的微阵痛数据来定义。本集合分为两个子集合:癌症基因群(CGN)和癌症模块(CM)。
>C4子集合CGN:癌症基因邻里
在我们的GSEA论文中,苏布拉马尼亚、塔马约等人2005年、PNAS 102、15545-15550,我们挖掘了4个相关基因集的表达汇编数据集,从内部资源和布伦塔尼、卡瓦列罗等人精心策划的380个癌症相关基因列表开始。人类癌症基因组计划测序联合会。使用表达的序列标记生成和利用人类转录组的癌症导向表示。2003年11月11日:100(23):13418-23号公告。我们使用给定基因的轮廓作为模板,按 Pearson 相关系数在数据集中订购所有其他基因。我们应用了0.85≥R的截止,以提取相关基因。邻里计算在每个简编中独立完成。这样,根据每个简编中的相关性,给定的异基因可能最多具有四种"类型"的邻里。在这个阈值下,<25个基因的邻里被省略了,最终产生了427组。
- GNF2:人体组织简编(诺华)。来自诺华正常组织简编的基因表达简介,发表在苏艾、威尔特郡 T、巴塔洛夫 S、拉普 H、清卡、D 块、张 J、索登 R、哈亚卡瓦 M、克雷曼 G、库克 Mp 、沃克 JR、霍根施 JB 中。小鼠和人类蛋白质编码转录组的基因图集。纳塔尔·阿卡德·西·美国2004年4月20日:101(16):6062-7。
- 车:诺华致癌简编(诺华)。诺华癌组织简编的基因表达简介,发表在苏AI、威尔士JB、萨皮诺索LM、克恩SG、迪米特罗夫P、拉普H、舒尔茨PG、鲍威尔SM、莫斯卡鲁克CA、小弗里森HF、汉普顿转基因。癌症 Res. 2001 十月 15:61 (20): 7388-93.
- GCM:全球癌症地图(广泛研究所)。全球癌症地图中的基因表达特征,如发表在拉马斯瓦米 S、 塔马约 P, 里夫金 R, 慕克吉 S, 杨 Ch, 安杰洛 M, 拉德 C, 赖克 M, 拉图利佩 E, 梅西罗夫 Jp, 波吉奥 T, 杰拉尔德 W, 洛达 M, 兰德 Es, Golub Tr. 多类癌症诊断使用肿瘤基因表达签名。纳塔尔·阿卡德·西·美国2001年12月18日:98(26):15149-54。
- MORF:基因表达数据集的未发布简编,包括博德研究所内部许多癌症项目AFFymetrix HG-U95癌症样本(共1,693个),来自代表许多不同组织类型的各种癌症项目,主要是原发性肿瘤,如前列腺癌、乳腺癌、肺癌、淋巴瘤、白血病等。
> C4 子集合 CM:癌症模块
由塞加尔 E、弗里德曼 N 、科勒 D 、雷格夫 A 定义的基因集。显示癌症中表达模块条件活动的模块图。纳特·吉纳特2004年10月36日(10):1090-8。简言之,作者从各种资源(如KEGG、GO等)编制了基因集("模块")。通过挖掘大量与癌症相关的微阵列数据,他们确定了456个此类模块,这些模块在各种癌症条件下发生了显著变化。另见 http://robotics.stanford.edu/~erans/cancer。
C5 集合:本体基因集
本集合中的基因集来自本体论资源。分为四个子集合,从本体论注释中得出。本体论注释是从各自当局维护的数据库中整理的。
本体论术语非常广泛的类别,将产生非常大的基因集(大于2000名成员)和本体论术语,产生基因集少于5名成员被省
略。此外,对每个子集合中的基因集进行了过滤,以消除集间冗余。(请参阅MSigDB 发布当前版本的说明,以及有关特定程序的更多信息。GSEA用户注意:基因集富集分析确定由共同调控的基因组成的基因集:
GO基因集基于本体,不一定包括共同调控的基因。
> C5 子集合 GO: 基因本体论
C5:GO 子集合分为三个组合(BP、CC 和 MF),分别来自基因本体论 (GO),并代表属于三个根 GO 本体之一的 GO 术语:生物过程 (BP)、细胞组件 (CC) 或分子函数 (MF)。
GO 是开发和使用本体论以支持基因及其产品的生物学意义注释的协作
努力。GO 注释包括一个 GO 术语,该术语与特定参考相关联,该参考描述特定 GO 术语与基因产品之间的关联所基于的工作或分析。每个注释还包括一个证据代码,以指示如何支持特定术语的注释(http://geneontology.org/page/guide-go-evidence-codes)。此子集合中的基因集以"GOBP"(生物过程)、"GOMF"(分子函数)或"GOCC"(细胞成分)为前缀,以指示其本体论来源。
> C5 子集合 HPO: 人类表型本体论
人类表型本体论 (HPO) 提供了人类疾病(https://hpo.jax.org/)中遇到的表型异常的标准化词汇。HPO注释由这些表型异常和异常与已知参与上述异常发展的一组基因之间的关联组成,这些基因是利用医学文献、孤儿网、DECIPHER和OMIM开发的。这个子卷中的基因集以"HP"为前缀,以指示其本体论的来源。
C6集合:致癌特征基因集
基因集代表细胞通路的特征,这些通路在癌症中经常被解除管制。大多数特征直接来自NCBI GEO的微阵拉数据,或来自内部未发表的分析实验,这些实验涉及已知癌症基因的扰动。此外,少数原生特征是从科学出版物中精心策划的。
C7集合:免疫特征基因集
这个集合中的基因集代表免疫系统内的细胞状态和扰动。它由两个子集合组成:
- 免疫西格德布,这是先发制人的完整的C7,代表了免疫扰动和状态的签名的广泛策划努力
- VAX,一个有针对性的子集,专门侧重于策划人类对各种疫苗的反应的已发表的研究。
>C7子集合免疫西格德布
免疫SigDB由基因集组成,这些基因集代表了免疫系统内细胞类型、状态和扰动的广泛策划努力。这些签名是由人类和小鼠免疫学中已发表的研究的人工策划产生的。
我们首先捕获了免疫学文献中发表的相关微阵列数据集,这些数据已存入基因表达综合体(GEO)。
对于每一项已发表的研究,都确定了相关的比较(例如WT与KO;治疗前与治疗后等),并建立了简短的、具有生物学意义的描述。所有数据的处理和规范化方式相同,以识别基因集,这些基因集对应于按每个分配比较的相互信息排列的上部或下层基因(FDR < 0.02 或最多 200 个基因)。
免疫签名收集是作为我们与达纳-法伯癌症研究所海宁实验室和人类免疫学项目联合会(HIPC)合作的一部分而
制作的。要引用您使用的集合,并进一步了解,请参阅Godec J, 谭 Y, 利伯松 A, 塔马约 P, 巴塔查里亚 S, 布特 A, 梅西罗夫 JP, 海宁 WN, 免疫签名简编识别保存和物种特定生物学在炎症的反应, 2016, 免疫 44 (1), 194-206.
>C7子集合VAX:疫苗反应基因集
本集合中的免疫反应特征来自人类免疫学项目联合会(重债穷国)对50种疫苗顺序的62份出版物的基因表达的策划结果。最初要策划的出版物清单是从PupMed搜索与"疫苗[和]签名"或"疫苗[和]基因表达"等词相匹配的论文中挑选出来的。要包含,每个基因列表都需要显示具有统计学意义的差异基因表达。收集了详细的元数据,包括疫苗、队列、比较、年龄和表达方式变化,如向上、向下、正相关等。这些签名受到广泛的质量控制和校对。一些手动基因符号更新和筛选发生后,策划。在执行 MSigDB 的通用符号重新标配程序之前,完全相同的响应签名被合并到单个基因集中。
C8集合:细胞类型签名基因集
包含在人体组织单细胞测序研究中识别的细胞类型的簇标记基因的基因集。这些基因集是从文献中精心策划的,代表签名基因和细胞类型识别,如各自的起源出版物所代表的那样。本集合中的基因集涵盖了来自心脏、胃肠道、胰腺、肾脏、肝脏、免疫系统、直膜、嗅觉组织和大脑的多种细胞类型。这些基因集旨在促进细胞类型在数据集中的分配,例如那些来自开发器官模型的实验。这些基因集的开发资金是由陈扎克伯格倡议赞助的人类细胞图集协作计算工具计划提供的。