点点点 | 真香!Simple GO GSEA 富集分析 ~

写在前面

时间拨回去 2015年,那时我接触生信已有一年,TBtools 开发尚在萌芽阶段。那会,我写了几款小的软件,包括 “blast3go”,为的是应对即将收费的“blast2go”。当然,后来相关功能都整合到 TBtools 中。而其中有一个重点功能,即 GO 富集分析。那会在 Bioinformatics中国 社群,我们开始了理论上是国内最早的公开社群学术Seminar(网络直播),我在其上也分享了相关学习经验和知识。主要介绍了最常用的基于超几何分布的富集分析方法,事实上,可以理解为简单的 Fisher's Extact Test。同时,也介绍了 GSEA,全称 Gene Set Enrichment Analysis。这个有趣。因为对于新手来说,概念似乎有点混乱。

常见的富集分析逻辑

目前,在科研工作中最为常见的三种富集分析策略,分别是:

  1. ORA,全称,Over Represent Analysis,即前述基于超几何分布的统计检验。TBtools当前使用的也是,这个方法,最大的优点是,非常快!可以说,适用于几乎所有情况,毕竟生物学问题,我们常常希望的是抓主要矛盾,而我们能做的,也是抓主要矛盾。
  2. 卡方检验,这个比较简单,针对任何一个GO条目或者KEGG通路,更或者其他注释,很容易拿到背景属于和不属于该条目的两个数字,选择集属于和不属于该条目的两个数字,于是就是列联表检验。这个方法其实用得不过,尽管也可以看到。
  3. GSEA,翻译,基因集合富集分析。Emmm,这个有点意思。一般来说,我们在现实生活中总是说 GO富集分析,KEGG富集分析,统称基因集合富集分析。而GSEA这个方法本身翻译过来,也是基因集合富集分析。但其中指代区别,还是要知悉。

既生ORA,何生GSEA?

事实上,关于富集分析方法的选择和优化,是一个持久不衰的热门话题,包括近期更新的国人佳作 KOBAS-i 也提出了新的更完善的方法,感兴趣的朋友,建议了解。那为啥如此?原因不用说,肯定是旧方法还是有一些值得改进的地方嘛。其中ORA最明显的问题,就是“硬阈值”。ORA要求的输入是,背景注释+选择集。而选择集要么就是差异表达基因,要么可能就是GWAS关联分析出来的基因。具体到差异表达基因上,往往要求 pvalue必须低于 0.05?或者0.01?同时差异表达倍数要达到 2倍以上。这是比较有趣的,因为我们都知道 1.99999.... 倍的差异其实也算差异。这是 GSEA 方法解决的主要问题之一。
对于 GSEA 方法,一般我们可以提供 背景注释+基因排序信息表。后者或者物种所有基因的表达矩阵,由软件计算差异表达倍数或其他来排序以及作为权重;或者是直接输入物种所有基因在某个两两比较的差异表达倍数,Log2FoldChange值;其实还可以是其他信号强度数值。于是不存在“硬阈值”。解决了ORA的问题。同时其实还解决了另外一个问题,这里埋伏笔,下述给出。

GSEA~真香定律

事实上,15年我用过两三次,做完一个医学项目之后,就再也没碰过 GSEA,因为我几乎在所有项目中发现,ORA的表现已经足够好,根本不需要GSEA。尤其是 GSEA 计算起来,真的非常非常非常慢(当然,非常感兴趣的可以了解一下大湿兄的R语言包 ClusterProfiler,据说很快)。由于我确实不懂 R语言,所以一直也没去折腾,索性就一直没用。
但最近做到一组数据,做的是果皮软化。很明显,果皮肯定是软化的,表型非常明显,细胞壁代谢相关基因必然也差异表达,但是在 常规富集分析中,没有任何相关显著富集结果。



这个不应该出现。我回头看了下差异表达基因列表,发现其实倍数差异排前的,几乎都与细胞壁代谢相关。直觉告诉我,果实软化过程,基因表达变化过大(对应差异表达基因数目偏多),导致没有合理的富集结果。于是,我想起来 GSEA。前述提及,他解决“硬阈值”的问题,但这个问题在本例其实没啥用,因为都差异表达的。而他其实同时还解决了一个问题,那么就是权重!只要我们使用每个基因的差异表达倍数作为权重,那么差异倍数大的,自然权重就高,可以被正确反映到富集分析结果上。


打包 GSEA 成 TBtools 插件

既然 GSEA 还是能用到我的日常项目中,我简单想了下,那不如~~~ 还是真香定律一把。索性打包成插件,相信也会有其他朋友跟我一样遇到类似的问题。既然打包成插件,那么使用就应该足够简单。TBtools 目前使用的 GO 富集分析功能,界面和使用方法如下:


而对于 GSEA 插件,界面和使用方法几乎一样,只需要,调整一个输入文件:选择集 ->所有基因排序信息。大体如下,两列,第一列是基因ID ,第二列是排序信息,可以直接整理出来所有基因的 Log2FoldChange值,也可以是其他信号值。

注意,必须带表头,如下

界面和使用方法如下:

同样,点击 Start 就可以了。

GSEA 结果简单解读

首先,GSEA 真的有点慢,建议跑上之后,玩 TBtools 的俄罗斯方块或者贪吃蛇,大概十几分钟之后就会有弹窗告诉你跑完了。
打开输出目录,可以看到非常多的文件。


打开网页可以看到

在 SnapSpot 中可以看到还不错的图片

但更多时候,我们会直接进入详情信息表

对于感兴趣的条目,可以点击进去查看详情。

GSEA使用的是置换检验,Permutation,感兴趣的建议了解下 PNAS 文稿。从这个结果来看,对该条目贡献最大的,即 Core Enrichment 中标记为 Yes 的基因。理论上来说,这些基因,即下游实验最值得关注的基因。

写在最后

我已经打包成 TBtools 插件,也自认为绝大多数人应该可以毫无难度是使用得了这个插件。但这个插件的只是个把小时的简单工作,暂时没有优化插件的计划,当然也要看到底大伙感兴趣的人有多少。于是,有两个点:

  1. 插件的安装,请直接在 TBtools 中 Install Plugin 菜单选择插件并安装;
  2. 插件的获取:暂时不放到插件商店。。。。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335

推荐阅读更多精彩内容