GEO数据分析之GSEA

GSEA-analysis

1.加载数据

载入前一步分析得到的表达矩阵

library(ggstatsplot);
library(cowplot);
library(clusterProfiler);
library(stringr);
library(dplyr);
library(tidyr);
library(ggplot2);
library(ggstatsplot);
load(file = 'GSE63067_GSEA.Rdata')#导入上一步分析的数据
exprSet <- data_plot
exprSet[1:3,1:3]

##                PAX8   CYP2A6   SCARB1
## GSM1539877 6.506860 11.94711 9.129116
## GSM1539878 6.313513 11.82544 9.402811
## GSM1539879 6.273058 11.42314 8.120977

2.批量相关性分析

将第一行目的基因跟其他行的编码基因批量做相关性分析，得到相关性系数以及p值。

y <- as.numeric(exprSet[,"CCL20"])

colnames <- colnames(exprSet)

cor_data_df <- data.frame(colnames)

for (i in 1:length(colnames)){

  test <- cor.test(as.numeric(exprSet[,i]),y,type="spearman")

  cor_data_df[i,2] <- test$estimate

  cor_data_df[i,3] <- test$p.value

}

names(cor_data_df) <- c("symbol","correlation","pvalue")

# 查看这个数据结构

head(cor_data_df)

##   symbol correlation      pvalue
## 1   PAX8 -0.23354999 0.350963277
## 2 CYP2A6 -0.60172099 0.008244347
## 3 SCARB1 -0.19907443 0.428394688
## 4 TTLL12 -0.57277340 0.012974684
## 5  CYTOR  0.35144428 0.152686677
## 6 ADAM32 -0.01286106 0.959604984

3.筛选最相关的基因

筛选p值小于0.05，按照相关性系数绝对值选前500个的基因，数量可以自己定。

cor_data_sig <- cor_data_df %>% 

  filter(pvalue < 0.05) %>% 

  arrange(desc(abs(correlation)))%>% 

  dplyr::slice(1:500)

4.随机选取正的和负的分别作图验证

正相关的选取IL2RG；负相关选取MARK1

#正相关的选取IL2RG

ggscatterstats(data = exprSet, 

               y = CCL20, 

               x = IL2RG,

               centrality.para = "mean",                              

               margins = "both",                                         

               xfill = "#CC79A7", 

               yfill = "#009E73", 

               marginal.type = "histogram",

               title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

#负相关的选取MARK1

ggscatterstats(data = exprSet, 

               y = CCL20, 

               x = MARK1,

               centrality.para = "mean",                              

               margins = "both",                                         

               xfill = "#CC79A7", 

               yfill = "#009E73", 

               marginal.type = "histogram",

               title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

image.png

#还可以用cowplot拼图

p1 <- ggscatterstats(data = exprSet, 

                     y = CCL20, 

                     x = IL2RG,

                     centrality.para = "mean",                              

                     margins = "both",                                         

                     xfill = "#CC79A7", 

                     yfill = "#009E73", 

                     marginal.type = "histogram",

                     title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

p2 <- ggscatterstats(data = exprSet, 

                     y = CCL20, 

                     x = MARK1,

                     centrality.para = "mean",                              

                     margins = "both",                                         

                     xfill = "#CC79A7", 

                     yfill = "#009E73", 

                     marginal.type = "histogram",

                     title = "Relationship between CCL20 and IL2RG")

## Warning: This plot can't be further modified with `ggplot2` functions.
## In case you want a `ggplot` object, set `marginal = FALSE`.

plot_grid(p1,p2,nrow = 1,labels = LETTERS[1:2])

image.png

5.聚类分析

既然确定了相关性是正确的，那么用筛选的基因进行富集分析就可以反推这个基因的功能。

#获得基因列表

gene <- str_trim(cor_data_sig$symbol,'both')

#基因名称转换，返回的是数据框

gene = bitr(gene, fromType="SYMBOL", toType="ENTREZID", OrgDb="org.Hs.eg.db")

go <- enrichGO(gene = gene$ENTREZID, OrgDb = "org.Hs.eg.db", ont="all")

# 这里因为是计算的所有GO分析的三个分类，所以可以合并作图

# 这是条形图

barplot(go, split="ONTOLOGY")+ 
  facet_grid(ONTOLOGY~., scale="free")

image.png

# 这是气泡图

dotplot(go, split="ONTOLOGY")+ 
  facet_grid(ONTOLOGY~., scale="free")

image.png

# 
# 这时候，我们能推断CCL20这个基因主要参与免疫调控和T细胞激活，细胞因子受体活性调剂等功能，大致跟她本身的功能是一致的。

参考

最后编辑于：2020.01.08 10:21:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343

GEO数据分析之GSEA

GSEA-analysis

1.加载数据

载入前一步分析得到的表达矩阵

2.批量相关性分析

将第一行目的基因跟其他行的编码基因批量做相关性分析，得到相关性系数以及p值。

3.筛选最相关的基因

筛选p值小于0.05，按照相关性系数绝对值选前500个的基因， 数量可以自己定。

4.随机选取正的和负的分别作图验证

正相关的选取IL2RG；负相关选取MARK1

5.聚类分析

既然确定了相关性是正确的，那么用筛选的基因进行富集分析就可以反推这个基因的功能。

推荐阅读更多精彩内容

筛选p值小于0.05，按照相关性系数绝对值选前500个的基因，数量可以自己定。