「nature protocols」组学数据的通路富集分析和可视化: g:Profiler, GSEA, Cytoscape 和 EnrichmentMap

nature protocols上发了一篇文章，题目为"Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap", 手把手将哪些只会实验的人如何通过点击鼠标的方式学会通路分析，挖掘他们高通量测序结果，包括转录组, 基因组和蛋白组学。

文章用到的软件为：

g:Profiler (https://biit.cs.ut.ee/gprofiler/)
GSEA (http://software.broadinstitute.org/gsea/)
Cytoscape (http://www.cytoscape.org/)
EnrichmentMap (http://www.baderlab.org/Software/EnrichmentMap)

基本流程为：

分析流程

文章的PDF版本一共有38页，基本上20多页内容都是讲如何通过鼠标点点点的方式实现富集分析，我翻译了其中对我有用的部分。

概念定义

富集分析必知的几个概念：

通路(pathway): 共同完成特定生物学过程的所有基因
基因集(gene set): 一组相关基因。通路基因集包括一个通路里的所有基因。基因集可以按照不同作用进行组合，例如细胞定位相关基因，某个代谢通路的基因
目标基因表: 组学分析后输出给通路分析的一组基因
排序基因表：一些组学分析中，基因还可以按照某个打分进行排序，例如RNA-seq后的p值，倍数变化等，能够为通路分析提供更多的信息。对于一个富集的通路而言，通路里的基因会聚集在排序表的一端，得分累加值会比通路基因集随机在排序表中出现的得分高。
通路富集分析：一种统计学方法，用于找到基因表或目标基因表所显著性富集的通路。
多重试验校正：如果独立进行了多次的富集分析，那么每次富集分析都会得到一个p值。为了降低假阳性，需要进行多重试验校正对每个单独富集分析试验中的p值进行调整。
前临界点基因(leading-edge gene): 在GSEA分析中，导致通路富集的一组基因。

富集分析资源

基因集数据库:

Gene Ontology(GO):
Molecular Signatures Database(MSigDB): GSEA工作组维护的基因集数据库，人类用的比较多，尤其是hallmakr基因集。

生化通路数据库

Reactome
Panther
NetPath
HumanCyc
National Cancer Institute Pathway Interaction Database
KEGG

通路元数据库

Pathway Common
WikiPathways

富集分析的优势和局限性

相对于只分析单个基因，转录本或蛋白，通路富集分析有如下几个优点：

整合了更多的数据，在统计上更加可靠
数据降维，将原本上千或上万的基因或基因组区域合并成更小的通路或者系统
结果更加容易解读
不同来源的数据更加容易比较
能够将不同类型的数据（RNA, DNA或蛋白）投影到同类型的通路上

然而通路富集分析也存在缺陷:

你需要保证用于富集分析的基因集有很强的生物学信号。如果一个通路里只有几个基因比较重要，那么富集分析就失效了。
通路通常是人为定义，因此不同的基因集数据库可能存在冲突
一些统计学方法，例如Fisher精确试验在统计学上更容易找到宽泛的通路，你需要在分析时限定基因集上下限
一些多功能的基因可能会出现在多个通路上，建议在后续分析时剔除
通路数据库通常是有人为偏误的，可能A通路的研究就是比B通路研究的深刻，甚至有些基因压根就没有被注释到，这些基因就需要单独进行研究。
大部分富集分析都有一个不切实际的前提，也就是基因和通路间是相互独立的，但是基因其实存在共表达，或者某些通路是类似的。但是FDR(多重试验校正)不在乎这件事情，如果你的通路里面存在过多的相似通路，那么校正之后的结果就会变得很少。不过，在前期探索性分析中还是能用的，后续分析可以自定义一个重抽样方法来更好的预测错误率。

试验设计

通路分析的好坏取决于你实验设计的好坏，我一致坚持认为"garbage in, garbage out"。要是实验设计太差，那么你可能得到由于试验偏误或者其他混淆因子产生的无意义结果。下面就是作者给出的关于试验设计的一些建议。

试验条件

实验条件必须定义为主要的观测变化，通常是实验者感兴趣的和生物学相关的处理。例如肿瘤和正常组织，处理和未处理，比较不同的疾病亚型，或者时间序列等。

重复数

实验重复非常重要，尤其是生物学重复，请至少做3个生物学重复吧。对于哪些变异特别大的设计，比如说肿瘤样本，请提供更多重复吧。

混淆因子

我们应该尽量避免和实验无关的因素或者至少在不同条件下达到平衡，这样次啊能保证利用了广义线性模型的统计学方法能够对这些因子进行矫正。常见的混淆因子如测序深度，核酸提取流程和年龄等。尽管我们不可能完全地在实验设计中将试验信号中混淆因子分离，但是提前知道可能的因素有助于提高试验设计。统计学方法中的聚类和PCA分析可以帮助我们找到这些未知的因素。例如，实验组和对照组应该离得远远的，而不会因为批次效应聚在一起。

离群值

离群样本指的是和其他样本差异过大的样本，一般是实验问题或者技术问题造成，比如说污染或者混样。当然，也有可能是极端生物学现象，比如说肿瘤样本有异常扩增的表型。我们可以用PCA或者无监督聚类的方式找到这种离群值。通路分析可以在有无离群值的情况下的进行，确保分析结果的鲁棒性。系统性移除离群值有助于降低实验的变异度。

试验敏感度

一些实验方法的敏感度会发生变化。举个例子，对于基因表达定量分析，显然测序深度越高，重复数越多，得到的差异表达基因也就越可靠。虽然大部分人没有钱测5个样本，但是3个还得保证吧。如果你研究可变剪切，那么对你的测序深度要求就更高了。

选择通路基因集数据库

考虑到通路分析结果可读性，作者建议先用如下的通路基因集进行分析，GO的BP(biological process), Reactome的人工审校分子通路(molecular pathways), 对于人类，Panther, HumanCyc和NetPath都是很好的资源。（GO的BP注释包括人工审校结果和电子注释）

根据证据代号过滤GO通路

许多自动化数据分析得到GO基因注释并没有得到人工审查，因此它们的证据代号(evidence code)登记为IEA (inferred from electronic annotation). 早期文献对这些数据非常谨慎的解释这些IEA标识的基因。但是近期研究发现，这些IEA GO注释结果和人工审查的数据一样可靠。如果你研究的是模式动植物，那么建议你分别比较过滤IEA和不过IEA的富集结果，来提高你结果的可靠性。如果是那些研究一般的物种，那么你也只能把IEA注释加上了。移除IEA标记的注释还可能对那些研究比较深入的生物学过程造成影响

使用非通路基因集

可以使用不同类型的数据集来解释不同的问题，但是请分开分析，也就是不要在一次通路分析中加入各种各样的基因集，这样子会由于多重试验矫正导致假阴性的提高。

选择合适的基因集大小

对于那些基因数不怎么多的通路，作者建议在分析中排除。一般而言，这些通路相对较大的通路是冗余的存在，而且在后期解释比较麻烦，甚至还会让多重试验校正更加严格。对于那些基因数很多的通路，作者同样建议移除，毕竟类似于metabolism 的宽泛概念在最后的解读中也没啥意义。

如果分析人类表达量数据，作者建议剔除基因集小于10~15的基因和大于200~500的基因，有些文献会把上线提高到200~2000。（PS: Y叔从clusterProfiler的最小值是10，最大值是500）。

对于非人类物种或者非表达量数据，由于不同的通路的研究程度不尽相同，所以集合的大小可以按需调整，但需要有文献或者试验的支持。一个比较好的做法是，看其中几个和试验相关的通路的基因集数目来确定上下限。

使用最新的通路数据集

富集分析结果依赖于分析中使用的基因集，最多许多研究用到的通路分析严重的收到了过时资源的影响。为了提高研究的可重复性和透明性，研究者需要在文献中标明分析日期，富集分析软件版本，用到的基因集数据库和分析参数。研究者最好把自己分析基因表和完整的富集通路表列在附件中。

选择基因标识符

在不同的数据库中，基因可能会有不同的标识符(ID)。这些基因标识符可能会出现冲突，甚至还会过期。对于人类，作者推荐使用Entrez基因数据库的编号，或者是HUGO Gene命名委员会的官方符号。由于基因符号会随时间变化，因此要对同时维护基因符合和Entrez基因iD。 g:Profiler和g:Convert工具能够实现多种基因编号到标准标号的转换。

非预期通路结果和试验设计

如果在你的通路分析中得到一些意外结果，这或许意味着你的试验设计、生成数据或分析出现了问题。举个例子，细胞凋亡(apoptosis)通路富集意味着实验的某些步骤导致了过多的细胞死亡。因此，你需要对你的实验过程进行调整，重新获取数据，用于后续分析。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345