进行WGCNA要注意,WGCNA输入(INPUT)的是:行对应着一个样品,列对应着探针的矩阵或者数据框。
1.数据准备
做基因表达谱构建,我们必须要有这两个文件(如图),前往GEO数据库下载。
1.GPL探针文件
2.表达矩阵(Series Matrix File)
2.数据处理
1.将表达矩阵导入R中,并且进行转置。使每一行对应着一个样品,每一列对应着一个探针(变量)。这与在limma中是的表达矩阵是不一样的。这个是要注意的!WGCNA输入(INPUT)的一个行对应着一个样品,列对应着探针的矩阵或者数据框。
library(parallel)
library(Biobase)
library(BiocGenerics)
data = getGEO(filename = "/...._series_matrix.txt")
myMatrix <- data@assayData$exprs
datExpr0 = as.data.frame(t(myMatrix))#转置
names(datExpr0) = rownames(myMatrix)#每列对应着一个样品
rownames(datExpr0) = colnames(myMatrix)#每行对应着一个探针
2.检查数据集中的缺失值(missing values)和去除离群样本点(outlier)。
检查数据集中是否含有过多的缺失值,如果没有缺失值则返回TRUE,否则返回FLASE。
gsg = goodSamplesGenes(datExpr0, verbose = 3);
gsg$allok
sampleTree = hclust(dist(datExpr0), method = "average");
# Plot the sample tree: Open a graphic output window of size 12 by 9 inches
# The user should change the dimensions if the window is too large or too small.
sizeGrWindow(12,9)
#pdf(file = "Plots/sampleClustering.pdf", width = 12, height = 9);
par(cex = 0.6);
par(mar = c(0,4,2,0))
plot(sampleTree, main = "Sample clustering to detect outliers", sub="", xlab="", cex.lab = 1.5,
cex.axis = 1.5, cex.main = 2)