下面介绍一下基因功能富集分析的研究进展:
基因功能富集分析中的基因功能指的是众多代表一定的基因功能特征和生物过程的基因功能集,由这些基因功能集构成的常用基因功能数据库有GO, 生物学通路, 包含生化反应、代谢或信号通路的KEGG,Reactome,Biocarta等, 整合数据库, 如MsigDB等.
基于算法分类的富集分析方法:
1.过代表分析法(ORA);2.功能集打分法(FCS);3.基于拓扑结构(NT)的方法;4.基于网络拓扑结构(NT)的方法。下图是方法的大致介绍:
4种方法的评估:
由于ORA 方法计算简便, 耗时少, 并且仅需要输入一组基因, 因此应用范围最广, 比较适合研究人员简单初步地分析结果. FCS 方法则要求输入基因的表达谱信息, 其灵敏度、精确度均优于ORA, 更容易检测出发生细微改变的信号。
PT 方法考虑了通路间的拓扑结构, 但是由于目前数据库中通路的拓扑结构信息不够完整, 总在不断更新, 同时不同通路的拓扑结构在不同的物种、细胞、组织、实验条件均不相同, 处理起来较为复杂, 导致PT 方法不够灵活, 并且评估结果显示, PT 方法并不显著优于FCS 方法, 因此实用度不高. 导致这种结果的原因是由于通路本身存在一定的冗余性问题。
NT 方法考虑了基因在生物学网络中的重要性及相互关系, 可以富集出在统计学上显著、且具有真正生物学意义的基因集, 是目前最新且主流的富集分析方法. 评估结果显示, NT 方法综合表现(灵敏度、精确度、特异度)较好, 因此在有合适的生物学网络时, 推荐使用NT 方法。
PS:本章有些命令使用的比较深入,故发链接可以学习一下: