一 基础知识
1、什么是富集分析?
富集分析的原理
一个生物过程通常是由一组基因共同参与,而不是由单个基因独自完成。富集分析的基本前提假设是,如果一个生物学过程在已知的研究中发生异常,则共同发挥功能的基因极可能被选择出来作为一个与这一过程相关的基因集合。
富集分析(Gene Set Enrichment Analysis, GSEA)通常是分析一组基因在某个功能节点上是否相比于随机水平过于出现(over-presentation)。富集分析原理可以由单个基因的简单注释扩展到多个基因集合的成组分析。
2、富集分析能用来干什么?
富集分析的作用。一组基因直接注释的结果是得到大量的功能节点,这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能节点加以过滤和筛选,以便获得更有意义的功能信息。目前最常用的方法是基于GO和KEGG的富集分析。首先通过多种方法多的大量的感兴趣的基因,例如差异表达基因集、共表达基因模块、蛋白质复合物基因簇等,然后寻找这些感兴趣基因集显著富集的GO节点或者KEGG通路,这有助于进一步深入细致的实验研究。总而言之,富集分析是用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。
富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。由于在进行富集分析时通常需要同时进行大量检验(多重检验),所以需要采用多重检验校正的方法对检验结果进行校正,常用的校正方法包括Bonferroni校正、Benjiamini false discovery rate校正。利用富集分析方法,对基因注释数据库做生物信息学研究产生了很多富集分析工具,例如DAVID在线分析工具、R clusterProfiler包、Metascape等,这些工具对促进基因功能分析以及研究高通量测序技术产生的生物学知识数据发挥了关键作用。因为网络上相关的教程有很多,本初不再赘述,大家可以自行检索,文末列举了几个小编认为适合上手的教程。
3、富集分析有几种类型?
依据富集分析过程中基因选择、注释数据库的不同,常用的富集分析可以分为以下四种类型:GO term功能富集、KEGG pathway通路富集、MSigDB基因集富集和单基因富集等等。
(1) GO term功能富集
基因本体(gene ontology, GO)数据库是GO组织在2000年构建的一个结构化的标准生物学模型,涵盖了细胞组分、分子功能、生物学过程三个方面,是目前应用最广泛的基因注释体系之一。GO的注释体系是一个有向无环图,包含三个分支,注释系统中每一个节点都是基因或蛋白质的一种描述,节点之间保持严格的“父子”关系。因此,一个基因或蛋白质可以从三个层面得到注释。
(2) KEGG pathway通路富集
京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG)是系统分析基因功能、基因组信息的数据库,整合了基因组学、生物化学及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体进行研究。目前KEGG共包含了19个子数据库,富集分析常用在KEGG Pathway通路中。
(3) MSigDB 基因集富集
MSigDB数据库定义了已知的基因集合,包括H和C1-C7八个系列(Collection)。H: hallmark gene sets (效应)特征基因集合,共50组;C1: positional gene sets 位置基因集合,根据染色体位置,共326个;C2: curated gene sets:(专家)共识基因集合,基于通路、文献等,包括KEGG;C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分;C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;C5: GO gene sets:Gene Ontology 基因本体论;C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据;C7: immunologic signatures: 免疫相关基因集合。可以从中获取大量的已知基因集合从而进行富集分析。
(4) 单基因富集
单基因富集分析并不是说拿单个基因来进行富集分析,一个基因根本没法进行统计检验。而是基于单个基因来抓取与其相关的基因,然后用这些相关的基因来进行功能富集,有两种方法:差异法和相关法。
差异法:根据给定的一个基因的表达值对样本进行分组,然后计算组间的差异表达基因,进而利用差异基因进行富集分析。
相关法:计算给定的一个基因的表达值与其他基因之间的相关性,将具有显著相关的基因作为一个集合进行富集分析。
功能分析(functional analysis)/ 通路分析(pathway analysis)是将一堆基因按照基因的功能/通路来进行分类。换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。GO分析是将基因分门别类放入一个个功能类群,而pathway则是将基因一个个具体放到代谢网络中的指定位置。
需要注意的是,不同数据库覆盖的基因数目是不一样的,以human为例,一共2万多个蛋白编码基因 , 其中有KEGG pathway注释的只有6000多个。由于已有认知的缺陷,这个是无法避免的问题,只能通过不断的探索研究来更新和完善数据库中的内容。
4、统计方法
如何研究差异基因集中参与的生物学过程,需要借助统计学手段,常见的方法包括以下两种:
- 费舍尔精确检验
- GSEA
费舍尔精确检验的核心就是得到如下所以的2X2的表格,
DGE Genome
in pathway 19 40
not in pathway 281 6800
从两个角度将基因进行分类,是否为差异基因,是否位于待研究的通路上,就可以得到上述表格了。第一列之和为差异基因的总数,第二列之和为非差异基因的总数。
在用这种方式进行分析时,通常会选择一个log2FD的阈值,挑选显著差异的基因,这种一刀切的过滤手段去除了一些可能的关键基因,其次,如果你的差异基因没有对应的pathway注释,那么在富集分析时,会被直接丢掉,以上两点是这种方法的缺陷。
GSEA又称之为基因集富集分析,这里的基因集指的就是数据库中的基因集合,比如pathway中的某条通路对应的所有基因,所以这种方法的研究对象和费舍尔精确检验是一致的。唯一不同的是,它的输入是所有基因,首先对基因进行排序,然后分析排序后的基因列表在某个通路下是否富集。
由于该方法不需要对基因事先过滤,所以不会丢掉某些差异基因,能够挖掘出的信息量也会增加,近年来也是越来越受欢迎。
二 常用数据库介绍
1. GO
GO数据库是基因本体论联合会(Gene Ontology Consortium)建立的一个数据库(官网http://geneontology.org/),旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。分别从分子功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述,
GO注释分为三大类,分别是:分子生物学功能(Molecular Function,MF)、生物学过程(Biological Process,BP)和细胞学组分(Cellular Components,CC),通过这三个功能大类,对一个基因的功能进行多方面的限定和描述。一个基因对应有一个或多个GO term(GO功能),一个term对应多个gene。
Cellular component解释的是基因产物在哪里,在细胞质还是在细胞核,如果存在细胞质那在哪个细胞器上,如果是在线粒体中那是存在线粒体膜上还是在线粒体的基质中。
Biological process该基因参与了哪些生物学过程,比如参与了rRNA的加工或参与了DNA的复制。
Molecular function该基因在分子层面的功能是什么,它是催化什么反应的。
通常在得到差异表达基因后,可通过功能富集分析进一步筛选对生物体具有重要意义的基因。将筛选得到的基因分门别类放入细胞组分CC、分子功能MF和生物过程BP三个功能类别中,基因产物被尽可能的富集到最低层的功能term上。寻找各个基因是否有共同的GO条目,或者有没有共同的上级GO条目,可以发现具有某些共同特点的基因。根据超几何分布关系,GO分析会对涉及的GO返回一个p-value,小的p值表示差异基因在该GO 中出现了富集。GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
补充:
GO是Gene Ontology的缩写。本体论是哲学概念,它是研究存在的本质的哲学问题。后来这个词被应用到计算机界,定义为概念化的详细说明。在实现上,一个ontology往往就是一个正式的词汇表,其核心作用就在于定义某一领域或领域内的专业词汇以及他们之间的关系,是领域内部不同主体之间进行交流的一种语义基础。
使用GO的时候一般需要GO定义文件和GO关联文件。GO定义文件存放GO词条的定义,而GO关联文件则是不同命名体系与GO词条的映射关系。条目标准定义:
id:GO编号,如:GO:0031985
name:全称,Golgi cisterna
ontology:命名空间namespace,cellular_component
definition:定义,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex. Source: GOC:mah
条目之间的关系,采用有向无环图(Directed Acyclic Graphs,DAG)的形式。注释系统中每一个节点就代表了一个基本描述单元(term),有向指的是term之间的单向指向性关系,比如termA是内质网,termB是细胞器,规定A是B,却不能说B是A;无环指的是从任何一点开始沿着规定的指向都不能回到原点。
2. KEGG
KEGG是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG下属4个大类和17个子数据库,而其中有一个数据库叫做KEGG Pathway,专门存储基因通路的信息,也是用的最多的一个,所以,久而久之,KEGG就被大家当做是一个通路数据库了。
GO分析好比是将基因分门别类放入一个个功能类群,而pathway则是将基因一个个具体放到代谢网络中的指定位置。根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起,因此pathway 分析的结果更显得间接。
常见的富集结果描述包括:
RichFactor,富集因子,是指感兴趣基因列表中属于这个term的基因的数量/背景基因集中富集在这个term中所有基因的数量。
p值或q值:代表富集显著程度,可以映射到图形颜色。
GeneNumber:感兴趣基因列表中属于这个term的基因数量。
Gene Percent(%):感兴趣基因列表属于这个term的基因的数量占感兴趣基因列表所有基因数量的百分比
三、GO和Pathway富集分析的背景基因集
基因富集分析需要我们提供某一类功能基因的集合用于背景,常用的注释数据库如:
- The Gene Ontology Consortium: 描述基因的层级关系
- Kyoto Encyclopedia of Genes and Genomes: 提供了pathway的数据库。
功能(GO)或者通路(Pathway)富集分析时,都会涉及到 Background; 做分析时,分析工具会提供一些数据供使用者选择或者使用自定义的gene list。
例如,在RNAseq或Microarray;有时候工具提供的 Background是物种所有的基因,现在也没有同一的标准用来自己构建Background。
两个概念+例子
- Background frequency:Background 基因集包含注释到某个GO term的基因数目。
- sample frequency:需要分析的gene 集包含注释到某个GO term的基因数目。
一个例子,现有S. cerevisiae(现注释有6442个基因)的10个基因需要做富集分析,如果这个10基因有5个基因注释到了GO term-DNA修复(S. cerevisiae有100个基因注释到DNA修复 );那么现在DNA修复的
- 背景频率(background frequency)就是 100/6442;
- 样本频率(sample frequency)是 5/10;
例子中,10个基因是确定的;使用全基因组注释的基因是6442;若是检测中只检测到5000个基因,那么Background gene集选用5000,背景频率也会变化(100 个DNA修复相关的基因都被检测到了),在统计检验时P值大小也会变化。除此之外,100 个DNA修复相关的基因也可能不会全部都在检测结果中。
GO term 或 Pathway 是否在实验结果的差异基因集中富集常使用的统计学检验基于超几何、卡方或二项式分布。基于基因组中基因注释到某个GO term的概率不变,查看差异基因集有多少基因可以注释到同一个GO term,从而得到P值。
Background 构造方法
1. 使用全基因组中所有的基因;部分软件是这样操作的
现在还没有明确的证据说明某个基因在某个组织或细胞系中不表达;组织和细胞的状态是动态变化的,基于不同的情况,基因表达模式也是不同的;在某个实验中,部分基因的表达可能会检测不到,但是他们还是背景的一部分。
使用全基因组中所有的基因,背景频率就会比较小;这种情况下得到的结果,p值也相比会小一些,假阳性也会增多。
2. Background应该包含可能是阳性结果的所有基因
在芯片测序中,特定的芯片也会对某一类的基因具有偏好性;Affymetrix Human Genome U133 Plus 2.0 GeneChip中包含了更多与甲基化相关的芯片。
有的实验目的是为了研究一定实验条件下某个组织特定生物过程的富集状况。常规的操作是比较实验和对照组的结果,通过差异表达的方法来鉴定组特异性表达的基因。阳性结果的蛋白或基因还是很难去鉴定了。
3. 实验中,技术平台能够检测到的基因;(e.g., microarray)
在microarray实验中,我们预先根据想要检测的基因设计了芯片探针,因此所能检测的基因是已知的。但是一部分探针可能由于背景噪音的影响无法检测到信号;这部分基因可以通过查阅先前已发表的的数据进行评估。
在RNAseq也存在各种问题会影响基因实际表达水平的测定,例如,PCR阶段引物与序列之间的偏好性会引入不确定变化;为了避免技术和检测上带来的问题,人为设定基因表达的count阈值,移除低于阈值的基因或者只是丢弃在所有样本中count都为零的基因。
四 富集分析工具
推荐clusterProfiler,它支持ORA和FCS两类算法。函数为:
- enrichGO, gseGO: GO富集分析;
- enrichKEGG, gseKEGG: KEGG富集分析;
- enrichDAVID: DAVID富集分析;
GSEA
Gene Set Enrichment Analysis(基因集富集分析)用来评估一个预先定义的基因集S(已知功能的基因集)的基因在与表型相关度排序的基因列表L(按照logFC、Signal to Noise Ratio等排序的基因列表)中的分布趋势(是随机分布,还是主要分布在顶部或底部),从而判断其对表型的贡献。GSEA确定一个预先定义的基因集是否能在两个生物学状态中显示出显著的一致性的差异,通俗一点就是某个通路/GO条目中的基因集在实验组和对照组中呈现出一 致的上调或者下调趋势。
富集分数 enrichment score(ES)代表集合S在排序列表L的顶部或底部被过表达的程度。这个分数是通过遍历列表L来计算的,当我们遇到一个在S中的基因时增加一个running-sum statistic(类Kolmogorov-Smirnovlike统计量),当遇到的基因不在S中时减少统计量。增量的大小取决于基因统计(例如基因与表型的相关性)。ES为random walk中遇到的与零的最大偏差(maximum deviation from zero)。GSEA的那条曲曲折折的线就是通过不断的加分减分做出来的,图中的每一条垂直线表示基因集S中一个基因。
利用置换检验(permutation test)计算ES的p值。具体地说,我们对基因列表L的gene labels进行重新排列(permute),并为排列后的数据重新计算基因集的ES(重复1000次),从而为ES生成一个null distribution。然后相对于这个零分布计算观察到的ES的p值。并使用FDR调整计算q值。
各种方法的特点
ORA方法存在一些问题:仅使用了基因数目信息,而没有利用基因表达水平或表达差异值,为了获得感兴趣或者差异表达基因,需要人为的设置阈值;ORA法通常仅使用最显著的基因,而忽略差异不显著的基因。在获得感兴趣的基因时, 往往需要选取合适的阈值, 有可能会丢失显著性较低但比较关键的基因, 导致检测灵敏性的降低;假设每个基因都是独立的,忽视了基因在通路内部生物学意义的不同(如调控和被调控基因的不同)及基因间复杂的相互作用;ORA假设通路与通路间是独立的,但这个前提假设是错误的。
FCS方法相较于ORA 法在理论上有明显突破,考虑到了基因表达值的属性信息, 以待测基因功能集为对象来进行检验, 也使得检验结果更加灵敏。认为虽然个体基因表达改变之后会更多在通路中体现,但是一些功能相关基因中较弱但协调的变化(small but consistent changes)也有明显的影响。但是仍独立分析每一条通路,
五、如何在SCI文章中实现高质量富集分析?
接下来从三篇SCI文章当中看一下如何将其应用。
(一)富集分析揭示肿瘤亚型
2021年8月份发表在JCI Insight(IF=8.311)上的研究Key molecular alterations in endothelial cells in human glioblastoma uncovered through single-cell RNA sequencing,从单细胞角度对胶质母细胞瘤中的内皮谱系细胞进行的降维、聚类,识别到五个亚群,通过计算亚群特异的差异表达基因,进而使用差异表达基因针对GO进行功能富集分析,揭示了这5个亚群特异的生物学功能,进而完成了胶质母细胞瘤的亚型区分,后续进行亚型刻画及生存预后分析。
(二)富集分析常见套路
2020年12月份发表在Medicine (Baltimore) (IF=1.880)的文章Screening and identification of key genes between liver hepatocellular carcinoma (LIHC) and cholangiocarcinoma (CHOL) by bioinformatic analysis,从GEO数据库搜索相关数据,一共找到三套数据,分别下载整理进行差异分析,对三套数据分析得到的差异基因取交集,一共得到170个差异基因,将上述得到的170个差异基因进行GO富集分析、KEGG富集分析,揭示关键功能。后续进行hub基因识别、生存分析验证,足以发SCI文章。
(三)富集分析常见套路
2021年4月发表在Medicine (Baltimore)(IF=1.880)的文章Identification and analysis of key genes associated with acute myocardial infarction by integrated bioinformatics methods。
基本思路是差异分析、GO和KEGG富集分析、PPI分析、筛选hub基因。通过进行差异分析,分别从GSE66360成功鉴定出289个上调的DEG和62个下调的DEG。并且它们主要在富集在嗜中性粒细胞活化,免疫反应,细胞因子,核因子κB(NF-κB)信号通路,IL-17信号通路和肿瘤坏死因子(TNF)信号通路。根据蛋白质间相互作用(PPI)的数据,对排名前10位的hub基因进行了排序,包括白介素8(CXCL8),TNF,N-甲酰基肽受体2(FPR2),生长调节型α蛋白(CXCL1),转录因子AP-1(JUN),白介素1β(IL1B),血小板碱性蛋白(PPBP),基质金属蛋白酶9(MMP9),toll样受体2(TLR2)和高亲和力免疫球蛋白ε受体亚基γ( FCER1G)。此外,相关分析的结果表明,这10个hub基因之间存在正相关。
建议学习材料
1.生物新信息学(人民卫生出版社 李霞主编)
2.https://zhuanlan.zhihu.com/p/66005958[工具] 我比较喜欢的几个富集分析工具(包括在线版和本地版)
3.https://zhuanlan.zhihu.com/p/135410211GO分析和KEGG分析都是啥?
更多文献解读,知识概述请关注:文章 - 生信人 (biosxr.cn)
ref :
https://www.jianshu.com/p/66eb3a16b296
https://www.jianshu.com/p/3e102d928210
https://www.jianshu.com/p/199b44974480
https://www.jianshu.com/p/e6bad6f357cd
https://www.jianshu.com/p/01d336679c38
https://www.jianshu.com/p/3b9eee8c31cc
https://www.jianshu.com/p/5cc889186bc5
https://www.jianshu.com/p/b05359c51fe9