array数据的读取
读取array数据首先确定一下测序平台和数据系列,然后用相应的包读取基因表达芯片数据-CEL格式文件并处理成表达矩阵。
affy包(Affymetrix 平台)处理的芯片平台一般是hgu 95系列和133系列;oligo包(Affymetrix 平台)能够处理affymetrix公司的Gene ST arrays,例如[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array;Illumina平台,则可以使用beadarray或lumi
常见平台对应的注释包的检索可以参考https://www.cnblogs.com/xiaojikuaipao/p/12567735.html
对array的一些介绍:
1.http://homer.ucsd.edu/homer/basicTutorial/affymetrix.html
Affy 分析array
source("https://bioconductor.org/biocLite.R")
biocLite("affy")
biocLite("hgu133plus2.db")#注释文件
library(affy)
library("hgu133plus2.db")
读取CEL文件
#读取CEL文件
celFiles <- list.celfiles(path = "/yourdataPATH/", full.names=TRUE)
data.affy <- ReadAffy(filenames = celFiles)
data.affy
标准化
#Normalize data with RMA
data.rma <- rma(data.affy)
获取表达矩阵
expr.rma <- exprs(data.rma) # format as table
对探针进行注释
# Convert gene names
Annot <- data.frame(REFSEQ=sapply(contents(hgu133plus2REFSEQ), paste, collapse=", "),
SYMBOL=sapply(contents(hgu133plus2SYMBOL), paste, collapse=", "),
DESC = sapply(contents(hgu133plus2GENENAME), paste, collapse=", ") )
# Merge data frames together (like a database table join)
all <- merge(Annot, expr.rma, by.x=0, by.y=0, all = TRUE)
#remove probe ID,gene REFSEQ and DESC and NA
all<-all[,c(-1:-2,-4)]
all<-all[which(all[,1] != "NA"),]
#use mean of probe ID as gene expression
all<-aggregate(.~SYMBOL,all,mean)
#change transcript ID to gene symbol in rownames
rownames(all)<-all$SYMBOL
后续差异分析分析参考limma包
oligo分析array
source("https://bioconductor.org/biocLite.R")
biocLite("oligo")
library("oligo")
library("oligo")
#文件位置
data.dir <- "../../../test/GSE81580_RAW-2/"
##CEL文件读取
celfiles <- list.files(data.dir, "\\CEL.gz$")
data.raw <- read.celfiles(filenames = file.path(data.dir, celfiles))
#表达量计算
data.eset <- oligo::rma(data.raw) #含背景处理、归一化和表达量计算
data.exprs <- exprs(data.eset) #提取表达量矩阵
write.csv(data.exprs,"../../../test/GSE81580expr.csv")
对探针进行注释
获取array对应的注释R包。可以通过ALL来查询
biocLite("ALL")
library(ALL)
show(data.raw)
以及一些查询和下载注释文件的网址:
注释文件下载https://www.thermofisher.com/cn/zh/home/life-science/microarray-analysis/microarray-data-analysis/genechip-array-annotation-files.html
http://www.affymetrix.com/support/technical/byproduct.affx?product=mo_trans_assay
各物种注释包查询:https://blog.csdn.net/weixin_40739969/article/details/103186027
欢迎关注!
参考:
https://bioconductor.org/packages/release/bioc/vignettes/oligo/inst/doc/oug.pdf
http://bioinfo.au.tsinghua.edu.cn/member/cye/ref/Microarray.pdf
https://y570pc.github.io/%E4%BD%BF%E7%94%A8oligo%E5%8C%85%E5%A4%84%E7%90%86%E5%9F%BA%E5%9B%A0%E8%8A%AF%E7%89%87%E6%95%B0%E6%8D%AE/
https://blog.csdn.net/tommyhechina/article/details/80409983