使用 DNA 微阵列进行全基因组表达分析已成为基因组学研究的支柱 。挑战不再在于获得基因表达谱,而是在于解释结果以深入了解生物学机制。在一个典型的实验中,从属于两个表型之一的样本中提取出数以千计的基因mRNA 表达谱,如,对药物敏感与耐药肿瘤肿瘤。可以根据这些mRNA在不同表型间bi a表达的差异进行排序,形成队列。chu a传统方法关注列表顶部和底部的少数基因(即那些显示出最大差异的基因),从中抽取生物线索。但这种方法有一些明显的限制。如,人为阈值的设定,以及基因变化幅度不大但实际十分重要的问题。基因集富集分析应运而生。
GSEA is a computetional method that determines whether an a priori defined set of genes shows statistically significant concordant differences between two biologicall states. (phenotype)
-- Subramanian, Aravind et al."Gene set enrichment analysis: a knowledge-based approach for interpreting genome wide expression profiles. " Proceedings of the National Academy of Science 102.43, 2005:15545-15550
https://pubmed.ncbi.nlm.nih.gov/16199517/
尽管全基因组 RNA 表达分析已成为生物医学研究中的常规工具,但从此类信息中提取生物学洞见仍然是一项重大挑战。在这里,我们描述了一种强大的分析方法,称为基因集富集分析 (GSEA),用于解释基因表达数据。
该方法的特点是,关注基因集,即具有共同生物学功能、染色体位置或调控机制。我们展示了 GSEA 如何对几个癌症相关数据集提取思路,包括白血病和肺癌。单基因分析发现两项关于肺癌患者生存的独立研究之间几乎没有相似之处,而 GSEA 揭示了许多共同的生物学途径。 GSEA 方法包含在一个免费提供的软件包中,以及一个包含 1,325 个生物学定义的基因集的初始数据库。
分析按照以下步骤执行:
- 对数据集中的所有基因进行排序
- 识别基因组所有成员在排序数据集中的排序位置
- 计算富集分数(ES),它表示观察到的排名与假设随机排名分布的预期排名之间的差异。
GSEA 的真正力量在于它的灵活性。我们创建了一个包含 1,325 个基因组的初始分子特征数据库,包括基于生物途径、染色体位置、上游顺式基序、对药物治疗的反应或先前生成的微阵列数据集中的表达谱的基因组。进一步的集合可以通过遗传和化学扰动、基因组信息的计算分析和追加的生物注释来创建。此外,GSEA 本身可用于通过识别跨不同实验数据集共享的前沿集来改进手动策划的路径和集。随着此类集合的添加,GSEA 等工具将有助于将先前的知识与新生成的数据联系起来,从而有助于揭示在健康和疾病状态下基因集的协同行为。