新知识
关于对于生信学习的反思,最近一直接触大量的新知识,说实话,很难,因为这些新知识没有办法和我现有的知识形成联系,所有的概念都是新的,如果我要记笔记,参考的文章为十,那我几乎要把十全部整理下来,这让我的心态很不好。
原理及目的
基因富集分析(GeneSet Enrichment Analysis,GSEA)一种对基因进行富集分析的方法,检验已知功能的基因集(即gene set,可以是从GO/KEGG/hallmark/MsigDB中拎出的某一特定类别的基因集合,也可以是自定义的功能基因集合),在一个依据与表型的相关度进行排序的基因列表(即两组样品的表达谱数据,依据基因在两种表型中的表达量的高低进行排序,因未对基因进行显著差异的筛选,因而可以将全部基因与不同表型的相关性均考虑进去)中是随机排列还是主要集中在列表的顶部或底部。若研究的已知功能基因集是非随机分布的,则说明该已知功能基因集与表型相关,根据其基因的集中情况,则可以推断出该已知的功能具体和哪种表型更为接近。
分类
GO富集分析
Gene Ontology: 描述基因的层级关系【基于ORA算法】可以算得上是高通量数据分析的标配,转录组、甲基化、ChIP-seq、重测序等,都会用到对一个或多个集合的基因进行功能富集分析,来找这个基因集的功能偏好性
这是一个基因本体联合会组织(Gene Ontology Consortium)建立的数据库,规范统一了对于不同物种的基因和蛋白描述。
条目标准定义
id:也就是GO编号,如:GO:0031985
name:全称,Golgi cisterna
ontology:命名分类cellular_component
definition:定义,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex.Source:GOC:mah
条目之间的关系
有向无环图
有向指的是term之间的单向指向性关系,比如termA是内质网,termB是细胞器,规定A是B,却不能说B是A;无环指的是从任何一点开始沿着规定的指向都不能回到原点
具体作用
基因分门别类放入细胞组分CC、分子功能MF和生物过程BP,分别对应基因产物在那里发挥功能,怎样发挥功能,发挥什么样的功能
GO分析可以帮我们找到提交的基因集中各个基因是否有共同的GO条目,或者有没有共同的上级GO条目,可以发现某些具有共同特点的基因(比如在某条共同的通路中起作用)
表现形式
气泡图表示显著性不同的GO条目对应的基因数量
X轴:RichFactor,富集因子,是指前景基因集中属于这个term的基因的数量/背景基因集中富集在这个term中所有基因的数量;
Y轴:GO term名称;
气泡颜色:Q值(也可以用P值绘图),代表富集显著程度,在这个图形当中,颜色越红代表Q值越小,富集程度越高;
气泡大小:数量,前景基因集中属于这个term的基因数量。
气泡越红越大,富集的基因数目越多,富集越显著
条形图表示三个分类的前多少条目对应基因的数量
网络图可以表示显著性较强的条目之间的相互关系
map图表示显著性较强的GO条目的层级关系,以树状图的形式展现
KEGG
Kyoto Encyclopedia of Genes and Genomes: 系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库【基于ORA算法】
包括
代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等
有一套完整的KO注释系统(KO是蛋白质或酶的一个分类体系,将同一条通路上功能相似、序列相似的蛋白质归为一类),可完成新测序物种的基因组或转录组的功能注释
因此可以将基因一个个归置到代谢网络指定位置上
命名规则
K(大写) +num基因ID号,表示所有同源物种中具有相似结构或功能的一类同源蛋白,如:K04456表示丝氨酸蛋白激酶;
ko+num代谢通路,表示特定的生物路径,如:ko04151表示PI3K-Akt信号通路【也是我们常用的代谢通路】;
M+num表示模块,如:M00676表示PI3K-Akt信号模块
C+num表示化合物,如:C00533表示一氧化碳
ECx.x.x.x表示酶,如:EC2.7.11.1表示丝氨酸
R+num表示反应名称
举个例子:三个字母表示物种,hsa表示Homo sapiens;具体的KO号,如K12407表示和葡糖激酶glucokinase序列和功能相近的蛋白质/酶类,当然一个KO号有可能会对应好几个数字(基因登录号),表示细胞中存在几种不同的葡糖激酶,分别由以上几种数字表示的基因编码
主要看颜色:红色表示上调的差异基因,绿色表示下调,白色的表示没有差异基因成功注释
挑选显著分析的前20左右的pathway进行展示
X轴:Gene Percent(%),柱子长短代表前景基因富集在该pathway上数目占所有前景基因的百分比。柱子上的数字为基因数量,和对应的q值;
Y轴:Pathway名称;
柱状图颜色:Q值(也可以用P值绘图),代表富集显著程度,颜色越深代表Q值越小,富集程度越高。
GSEA
Gene Set Enrichment Analysis 基因集富集分析,用于评估一个基因集的基因在表型相关度排序中的分布趋势,进而判断它们对表型的贡献
FCS算法
区别
- GO是先筛选基因(需要人为设定阈值),再判断差异基因在哪些通路有富集
- GSEA可以考虑那些表达差异不大却功能重要的基因对通路影响,相比GO和KEGG能保留更多信息
首先将我们要研究的基因集里的基因按照差异倍数或者差异显著性P值等进行排序,再和已知功能的基因集进行对比,看后者在前者的分布情况,然后根据富集得分(ES值)去判断我们要研究的基因集是不是和我们关注的通路相关。