基因集富集分析 (Gene Set Enrichment Analysis, GSEA) 的基本思想是使用预定义的基因集,通常来自功能注释或先前实验的结果,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。
首先从一个叫S的探针集序列开始,假定它是一类编码产生新陈代谢的通路基因集,被定位于相同的细胞生成位段,或者是说有相同GO分类。(译者注:GO是什么?维基百科。) GSEA的目的就在于判断S的成员是随机的分布于L(待测基因探针所排序列)上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。
下面是具体的三个重要步骤:
-
计算富集积分(Enrichment Score,ES)
我们计算出一个富集积分值(ES),其为S的基因在整个L序列的头部和尾部的超表达量。
积分值的计算是从L序列的头部开始往尾部走,每当遇到一个基因是在S上就加分,没有则减分。加分的分值大小根据基因表型相关系数大小。富集分值是从没有遇到的时候开始计算直到最大值误差值;而且它还与K-S test统计加权值有关。 -
估计ES的显著程度
我们估计统计学上有意义部分的ES值(名义上的P值),是通过一个经验基础表型方法——置换检验,保存基因表达数据的结构的复杂相关系数。明确地,我们置换不同表型标签下的数据,并且再一次计算ES值,使之形成一个新的ES分布(假分布)。从经验上说,交换之后,ES的P值相对于新的ES值(统计分布)来说若是显著的变化,则有理由说明此基因集是有一定的生物学意义的。 -
多重假设检验的调整
当评估了所有基因探针数据之后,我们会用多重假设检验来评价它们的显著性。我们首先把每一个探针的ES值做根据探针多少的一个标准化,生成一个标准化富集积分值(NES)。之后我们计算出假阳性发现率(FDR),并以此划出假阳性部分对应每一个NES值。FDR是评估一个NES表达值中所发现的假阳性可能性大小;它是由NES的观测值和零分布时比较得出的。
以上几步的实行细节在附录(注:参考文章2中的附录)里面有更详细的说明。(在相关出刊物和PNAS网页上也有支持文件。)
参考文章: