MSigDB:基因集数据库

转自微信公众号《生信修炼手册》。https://blog.csdn.net/weixin_43569478/article/details/83744521
Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA和一个基因集数据库MSigdb。本章主要介绍这个数据库,官网如下http://software.broadinstitute.org/gsea/msigdb/index.jsp


需要填邮箱和机构注册一下,就可以使用下载数据和GSEA软件了。

对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。
该数据库是不断更新和完善的,目前最新版本为v6.2, 更新于2018年7月,共收录了17810个基因集。不同版本如下收录的基因集数目变化如下

image

如此多的数据,肯定需要分门别类的整理,在MSigDB中,将所有的基因集划分为以下8大类别:

1. H: hallmark gene sets

该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。

2. C1: positional gene sets

该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。

3. C2:curated gene sets

该类别包含了已知数据库,文献和专家支持的基因集信息,包含下面5个二级分类

image

以KEGG为例,包含了186个基因集,每个基因集本质上都对应pathway 数据库里的一条通路。比如基因集KEGG_ABC_TRANSPORTERS对应pathway数据库中的hsa02010。

4. C3 : motif gene sets

该类别包含了miRNA靶基因和转录因子结合区域等基因集合,示意如下

image

无论是转录因子还是miRNA, 都是通过特定的motif序列来识别可以结合的区域,这些基因集合,本质上为具有相同motif序列的基因集,比如AAACCAC_MIR140这个基因集, 具有相同的AAACCACmotif, 而hsa-miR-140可以识别该motif然后进行结合,所以AAACCAC_MIR140是hsa-miR-140靶标基因的集合。

5. C4 : computational gene sets

该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因,示意如下

image

6. C5 : GO gene sets

该类别包含了Gene Ontology对应的基因集合,分为以下3大类别

image

每个基因集对应一个GO term, 比如基因集GO_MOLTING_CYCLE对应GO:0042303。

7. C6 : oncogenic signatures

该类别包含已知条件处理后基因表达量发生变化的基因,比如AKT_UP.V1_DN对应RAD001试剂处理后表达量下调的基因。

8. C7 : immunologic signatures

该类别包含了免疫系统功能相关的基因集合。
在官网上,可以方便的检索这些基因集,链接如下http://software.broadinstitute.org/gsea/msigdb/genesets.jsp
选择感兴趣的类别,然后在页面最下方就可以看到该类别下的所有基因集,示意如下

image

我选择的是C1大类,2号染色体上的基因集,chr2p这种信息就是每个基因集的名字,点击可以查看具体信息,示例如下

image

结果页面可以看到该基因集的名称,描述信息等,也可以直接下载,有多种格式供选择。官网也提供了下载功能,一次下载所有的基因集,需要注册登录才能使用该功能。
对于GSEA而言,不仅是富集分析算法的一次提升,更是研究角度的高度升华。传统的富集分析只会对GO, pathway等功能数据库进行分析,而MSigDB提供了多方位的研究思路,不仅从功能出发,也可以从位置,表达量变化趋势等角度进行探究,极大的丰富和扩展了富集分析的研究对象。


发现了几篇相关好推文:http://www.360doc.com/content/16/1026/18/19913717_601568937.shtml

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容