GO富集分析-对比Gorilla, clusterProfiler, topGO三种工具part2

关于三个工具的具体描述（尤其GOrilla）,见 GO富集分析-对比Gorilla, clusterProfiler, topGO三种工具part1 ~ GSEA 篇

Interesting gene vs universe~ (ORA )对比

Gene list preparation

保证输入一致， GOrilla 输入 symbol, clusterProfiler 及 topGO 输入 ENTREZ ID.

# gene list preparation for ORA
# GSE76275

library(hgu133plus2.db)
library(magrittr)
load("GSE76275_DEGs.Rdata")

# universe gene list
universeprobe <- row.names(DEGdf)
universeentrez <-  AnnotationDbi::select(hgu133plus2.db,
                                         universeprobe,
                                         "ENTREZID",
                                         "PROBEID")[,2] %>%
  na.omit()%>%
  unique()
save(universeentrez, file = "universe_entrezidlist.Rdata") 

### for GOrilla
universesymbol <- AnnotationDbi::select(hgu133plus2.db,
                                        universeentrez,
                                        "SYMBOL",
                                        "ENTREZID")[,2] %>%
  na.omit()%>%
  unique()
write.table(universesymbol, file = "universe_symbollist.txt",
            quote = F, col.names = F, row.names = F)

## interesting gene list
interesprobe <- row.names(DEGdf[abs(DEGdf$logFC) > 1,])
interesentrez <- AnnotationDbi::select(hgu133plus2.db,
                                       interesprobe,
                                       "ENTREZID",
                                       "PROBEID")[,2] %>%
  na.omit()%>%
  unique()
save(interesentrez, file = "interesting_entrezidlist.Rdata") 


### for GOrilla
interessymbol <- AnnotationDbi::select(hgu133plus2.db,
                                       interesentrez,
                                       "SYMBOL",
                                       "ENTREZID")[,2] %>%
  na.omit()%>%
  unique()
write.table(interessymbol, file = "interesting_symbollist.txt",
            quote = F, col.names = F, row.names = F)

clusterProfiler

ORA GO-BP

# clusterProfiler ORA
## GO-BP
orago_BP <- enrichGO(gene          = interesentrez,
                     universe      = universeentrez,
                     OrgDb         = hgu133plus2.db,
                     ont           = "BP",
                     pAdjustMethod = "BH",
                     pvalueCutoff  = 0.05,
                     qvalueCutoff  = 0.05,
                     readable      = TRUE)
cpORAGOres_BP <- orago_BP@result
dim(cpORAGOres_BP)
# [1] 2001    9
save(cpORAGOres_BP, file = "cpORAGOres_BP.Rdata")

topGO

predefined list of interesting genes

topGO 需要先将输入的 genelist 和 GO 数据库匹配，基因数已经减少到了17762个。

construct a geneID2GO object (a list)

### construct a geneID2GO object (a list)
library(dplyr)
geneID2GOtb <- na.omit(AnnotationDbi::select(hgu133plus2.db, 
                                             universeentrez,
                                             "GO", "ENTREZID"))

geneID2GOmg <- geneID2GOtb %>%
  group_by(ENTREZID) %>%
  summarise(GO=list(GO))
geneID2GO <- geneID2GOmg$GO
names(geneID2GO) <- geneID2GOmg$ENTREZID

构建一个表示在 universe gene 中，哪些基因是 interesting gene & 哪些不是的 factor，并用这个 factor 代表两个 gene list.

construct a genelist (a factor)

### construct a genelist (a factor)
geneNames <- names(geneID2GO)
myInterestingGenes <- geneNames[match(interesentrez, geneNames)]
ORAgeneList <- factor(as.integer(geneNames %in% myInterestingGenes)) 
names(ORAgeneList) <- geneNames 
str(ORAgeneList) 
#  Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
#  - attr(*, "names")= chr [1:17762] "1" "10" "100" "1000" ...

### enrichment analysis
ORAGOdata <- new("topGOdata",
                 ontology = "BP",
                 allGenes = ORAgeneList,
                 annot = annFUN.gene2GO,
                 gene2GO = geneID2GO)
ORAGOdata
# 
# ------------------------- topGOdata object -------------------------
# 
#  Description:
#    -   
# 
# Ontology:
#    -  BP 
# 
#  17762 available genes (all genes from the array):
#    - symbol:  1 10 100 1000 10000  ...
#    - 121  significant genes. 
# 
#  15869 feasible genes (genes that can be used in the analysis):
#   - symbol:  1 10 100 1000 10000  ...
#    - 111  significant genes. 
# 
#  GO graph (nodes with at least  1  genes):
#    - a graph with directed edges
#    - number of nodes = 15845 
#    - number of edges = 37664 
# 
# ------------------------- topGOdata object -------------------------

经典Fisher test:

###  classic Fisher TEST
ORAresultFisher <- runTest(ORAGOdata, algorithm = "classic", statistic = "fisher") 
# 
#            -- Classic Algorithm -- 
# 
#        the algorithm is scoring 2826 nontrivial nodes
#        parameters: 
#            test statistic: fisher
ORAresultFisher
# 
# Description:  
# Ontology: BP 
# 'classic' algorithm with the 'fisher' test
# 15845 GO terms scored: 176 terms with p < 0.01
# Annotation data:
#     Annotated genes: 15869 
#     Significant genes: 111 
#     Min. no. of genes annotated to a GO: 1 
#     Nontrivial nodes: 2826

### summary table
ORAallRes <- GenTable(ORAGOdata,classicFisher = ORAresultFisher,
                      orderBy = "classicFshier",ranksOf = "classicFshier",
                      topNodes = 176)
save(ORAallRes, file = "topORAGOres_BP.Rdata")

结果对比

# comparison 
## get GOrilla res
GOrillaORA <- read.csv("GOrillares_2lists.txt", header = T,
                       sep = "\t")

load("cpORAGOres_BP.Rdata")
load("topORAGOres_BP.Rdata")

可以看出在数量上差异也很明显。

nrow(cpORAGOres_BP)
# [1] 2001
nrow(ORAallRes)
# [1] 176
nrow(GOrillaORA)
# [1] 12

取三个结果的交集，得到5个共有 GO term.

cpvstop <- intersect(cpORAGOres_BP$ID,ORAallRes$GO.ID)
triple <- intersect(cpvstop, GOrillaORA$GO.term)

row.names(GOrillaORA) <- GOrillaORA$GO.term
row.names(ORAallRes) <- ORAallRes$GO.ID
thefive <- cbind(GOrillaORA[triple,], cpORAGOres_BP[triple,], ORAallRes[triple,])

finetable <- subset(thefive, select = c("Description",
                                        "P.value","FDR.q.value", "Enrichment..N..B..n..b.",   ## GOrilla
                                        "GeneRatio","BgRatio""pvalue", "p.adjust", "qvalue", ## cp
                                        "Annotated", "Significant", "classicFisher"))  ## topGO

可以看出，针对ORA法，GOrilla 和 clusterProfiler 得到的 p.val 较为接近。（GSEA法，clusterProfiler 和 topGO 得到的 p.val 更接近。

最后，向大家隆重推荐生信技能树的一系列干货！

生信技能树全球公益巡讲：https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小时生信工程师教学视频合辑：https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招学徒：https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

最后编辑于：2020.08.22 00:45:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,524评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,869评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,813评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,210评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,085评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,117评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,533评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,219评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,487评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,582评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,362评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,218评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,589评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,899评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,176评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,503评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,707评论 2赞 335