GEO挖掘实战一、初步探索数据

「生信技能树」三阴性乳腺癌表达矩阵探索 系列笔记
GEO挖掘实战一、初步探索数据 - 简书
GEO挖掘实战二、差异分析及富集分析 - 简书
GEO挖掘实战三、GSVA - 简书
GEO挖掘实战四、TNBC相关探索 - 简书

0、阅读文献

主要复现文献:https://pubmed.ncbi.nlm.nih.gov/30175120/

  • 主要研究nonTNBC与TNBC的关系

TNBC,即三阴性乳腺癌是指雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体(HER2)均阴性的一种特殊类型乳腺癌。TNBC约占所有乳腺癌的15%,其许多生物学特性和基底细胞样型乳腺癌(Basal-like breast cancer)相似,但两者之间存在某些基因表达谱和免疫表型上的差异,因此亦不能完全等同。

1、下载GEO数据

1.1、设置下载镜像源

#设置一般R包下载镜像源
options()$repos
options("repos"="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")
#设置bioconductor包下载镜像源
options()$BioC_mirror
options("repos"="https://mirrors.ustc.edu.cn/bioc/")

1.2、R包与数据下载

if (!require("BiocManager"))
  install.packages("BiocManager")
if (!require("GEOquery"))
  BiocManager::install("GEOquery")

rawdata <- 'GSE76275_gset.Rdata'
if(!file.exists(rawdata)) {
  #判断当前工作目录是否存在rawdata。不存在则下载,并保存
  gest <- getGEO("GSE76275", destdir = ".",
                 AnnotGPL = T, #注释文件,可选
                 getGPL = T)   #平台文件,可选
  save(gest, file = rawdata)
}
rm(list = ls())

此外还有其它下载方法,如进入https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76275界面时

1

2、提取表达矩阵与分组信息

load('GSE76275_gset.Rdata')
class(gest) #为一个list
length(gest) #查看list只有一个内容
class(gest[[1]]) #注意list[1]还是一个list
?ExpressionSet  
gset <- gest[[1]]
  • ExpressionSet contains high-throughput assays and experimental metadata.作为高级对象,内容很多。这里我们关键掌握两个相关函数即可exprs pData,具体如下。
#取表达矩阵 exprs
exprs(gset)[1:4,1:4] #行为探针,列为样本
exp <-exprs(gset)
dim(exp) #265个样本,54675个探针

#取样本信息/实验设计 pData
meta <- pData(gset)
colnames(meta)
head(meta,3)
#通过观察,找到分组信息列
table(meta$characteristics_ch1.1)
meta$characteristics_ch1.1=='triple-negative status: not TN'
#利用ifelse语句生成二分类分组信息(是否为三阴性乳腺癌)
group_list <- ifelse(meta$characteristics_ch1.1=='triple-negative status: not TN',
       'noTNBC', 'TNBC')
save(exp, group_list, file = "exp_group.Rdata")
rm(list = ls())
2

如上图,芯片探针表达量值均在1-20左右,可以说明表达量已经经过log处理。在后续差异分析时可采用limma/edgeR,而不能使用Deseq2,因为后者的输入表达矩阵需要为raw counts。

3、数据预分析(PCA、heatmap)

load('exp_group.Rdata')

3.1、PCA (Principal Components Analysis,主成分分析)

library("FactoMineR")#画主成分分析图需要加载这两个包
library("factoextra")
exp[1:4,1:4]
dat = log(exp+1)   #防止为0
t(dat)[1:4,1:4]  #转置矩阵:行名为样本,列名为基因
dat.pca <- PCA(t(dat), graph = FALSE)
pca.plot=fviz_pca_ind(dat.pca, geom.ind = "point", 
                      col.ind = group_list, 
                      addEllipses = TRUE, 
                      legend.title = "Groups")
pca.plot #从结果来看,两组区分度挺理想的
3.1

3.2、heatmap

这里我们选取变化(离散程度)最大的前1000个探针做热图

cg <- names(head(sort(apply(exp,1,sd), decreasing = T),1000)) #choose_gene
cm <- exp[cg,] #choose_matrics
cm[1:4,1:4]
cm <- t(scale(t(cm)))  #标准化处理,更好观察探针在不同组样本间差异
cm[cm>2]=2; cm[cm< -2]= -2 #避免极端值的影响
cm[1:4,1:4]
group_dat <- data.frame(group=group_list,row.names = colnames(exp))
#热图的特定分组格式
head(group_dat)
3.2-1
library(pheatmap)
pheatmap(cm, show_rownames = F,
         show_colnames = F,
         annotation_col = group_dat)
3.2-2

如上图两组基本也可以通过分开。但是在左侧里部分noTNBC与TNBC还是混在一起。这是主要因为TNBC主要还是基于生/病理指标而不是基因水平定义的,存在一定差异可以理解。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341