材料和方法
1.微阵列数据分析
所有的微阵列表达数据下载与GEO数据库。Raw.CEL文件用bioconductor的affy包进行RMA。数据集的选择依据以下几个质量控制标准:可靠的并且高覆盖率的微阵列平台(Affymetrix HGU-133 plus 2.0),清晰的实验设计,重复足够数目(细胞系>=3,病人样本>=5),统一的cell composition,PCA结果和实验设计已知(比如样品可以从不同类进行清晰分类)。在从Affymetrix 向NCBI entrez-gene转换后,执行富集分析,使用的是bioconductor hgu133plus2 package。
2.雌激素处理的乳腺癌细胞
微阵列数据(GSE11352)由18个samples组成,6classes,每个3个重复(6classes指的是3个时间点,雌激素处理和未处理)。这些系列由12和24小时时间点组成,GSEA进行分析,t-test,2000gene-set permutations。在case1和case2中,GM使用的富集阈值是:名义p-value<0.001,FDR<5%.overlap coefficient 设置为0.5
3.结肠癌早期
GSE4107,22个样本构成,10个normal,12个结肠癌。GSEA分析,t-test,2000gene-set permutations。EM的仅用nominal p-value<0.001,FDR<5%.重叠系数设置为0.5
4.基因集预处理gene-set pre-processing
GO注释从bioconductor下载,org.Hs.eg.db 包,为了GO注释覆盖最大,没有明显的代码进行过滤。Terms 注释超过500或少于10个基因的被丢弃,产生了2378个GO term用于分析。这些阈值是富集分析的常规应用,作为大的基因集传递有意义的生物学意义(比如生理过程的调节),然而,很少的基因集因为随机波动倾向于错误富集。同时,减少的基因集数目减少了多重检验校正的负担,潜在的增加了分析能力。
5.EM:重叠检测和网络可视化
基因集定义和富集列表文件在cytoscape插件EM中加载,并且通过显著性进行过滤,用户可以自行设置p-value和FDR阈值。显著性基因集之间的重叠overlap是根据Jaccard 系数或overlap系数计算的,这依赖于用户的选择。
假如有个基因集A和B,|X|等于基因集X中的元素的数目,Jaccard coefficient(JC)被定义为
而overlap 系数(OC)被定义为
当等级聚类组织的基因集集合(如GO)被分析时,CO更有优势。Parent-child重叠产生最大的得分,这意味着所有的等级关系都会在网络中呈现。另一方面,JC倾向于把相似size的基因集划为一组,因此,GO 父子关系经常在这种网络中缺失。基因集网络的产生的元素必须是用于设定的阈值之上的,不管是JC还是OC。并且以cytoscape force directed输出,权重mode。OC或JC定义了边的权重。
6 EM:应用
EM作为一个java插件免费在cytoscape网络中可视化和分析。插件和代码也是免费的。这个插件可以读取两种类型的输入格式,GSEA专有的和一般的。Case2中使用的热图可视化,可以对任何选定的基因集使用。任何用户选择的基因集和基因集集合都可以被上传并执行query set post-analysis,就像在case3中描述的。