抽空接着更新之前的数据可视化。本次主要复现之前这篇文献的图5中的两个图,层级聚类热图和柱状图。主要用到ggplot2的基础绘图功能、pheatmap绘制聚类热图以及complexheatmap绘制层级聚类热图。
以下是文章原图。由于这篇文章不能下载全文,所以层级聚类热图里面作者使用的具体的聚类方法、聚类距离等参数就不得而知。这里主要是学习文章中图的复现思路,所以暂时忽略这些问题。第一个层级聚类热图,我们这里用两种方法。第一种是使用corrplot包,基本能复现,唯一的问题是不能添加聚类树;第二种我们使用complexheatmap包复现,基本能达到文章的标准。其实也可以使用pheatmap包,也存在不能添加聚类树的问题。
这个条形图的复现就比较简单了。分别绘制两个panel的条形图,然后使用patchwork组图,共享图例就可以。
首先我们来绘制热图吧,先使用corrplot包。
首先我们加载依赖包
library(readxl)
library(tidyverse)
library(patchwork)
library(corrplot)
rm(list = ls())
然后我们读入数据,并将数据转换为矩阵(输入文件为相关性矩阵,如果是原始的输入形式,首先做相关性检验得到相关性矩阵)。
Figure5a_data <- read_excel("./Source data/Figure 5.xlsx",sheet = "Fig.5a",na="NA")#读入数据
cordata<-Figure5a_data
cordata<-cordata[,-1]
rownames(cordata)<-colnames(cordata)
cordata<-as.matrix(cordata)
自定义一个图例的填充色
col_fun<-colorRampPalette(colors = c("#292cfe","white","#ff1817"))(200) #构建用于绘图的颜色
使用corrplot绘图
corrplot(cordata,
col = col_fun,#热图颜色
method = "square",#热图展示方法
order = "hclust",#相关性矩阵排序方法
hclust.method = "ward.D2",#层级聚类方法
addrect = 4,#根据层级聚类添加矩形框数目
tl.col = "black",#文本颜色
tl.cex =0.7,#文本大小
cl.length =5,#图例显示数值数目
cl.ratio = 0.1)#图例宽度
下面我们看下使用complexheatmap复现的过程。基本过程与corrplot相同。
我们通过使用层及聚类的方法将整个矩阵切割为四行四列。在这个过程中聚类树上会出现虚线,并且会出现对应的行标题和列标题(聚类的cluster)。所以需要设置相关参数不显示聚类树上的虚线以及标题。其他的过程就是进一步对聚类热图进行美化。
library(ComplexHeatmap)
split = data.frame(cutree(hclust(dist(cordata)), k = 4))#根据hclust层级聚类方法将热图分割为4行4列
Heatmap(cordata,
name = "Correlation",#热图名称
col = col_fun,#颜色
row_split = split,#行分割
column_split = split,#列分割
show_parent_dend_line = FALSE,#不显示聚类树虚线
row_dend_gp = gpar(lwd=2),#行聚类树线条宽度
column_dend_gp = gpar(lwd=2),#列聚类树线条宽度
row_title = NULL,#不显示行聚类树标题
column_title = NULL,#不显示列聚类树标题
border = TRUE,#显示边框
border_gp = gpar(lwd=2),#边框粗细
rect_gp = gpar(col="grey"),#热图单元格边框色
row_names_gp = gpar(fontsize=10),#行名字体大小
column_names_gp = gpar(fontsize=10),#列名字体大小
row_dend_width = unit(0.5, "cm"), column_dend_height = unit(0.5, "cm"))#聚类树高度
下面我们复现图5b。这里我们分别对两个部分进行复现。
首先是不同irAE所对应的不同模型指标得分的条形图。
# Figure 5b1
Figure5b1_data <- read_excel("./Source data/Figure 5.xlsx",sheet = "Fig.5b",na="NA")#读入数据
Figure5b1_data$Type<-factor(Figure5b1_data$Type,levels = unique(Figure5b1_data$Type))#因子化
Figure5b1_data$Metric<-factor(Figure5b1_data$Metric,levels = unique(Figure5b1_data$Metric))#因子化
Figure5b1<-ggplot(data = Figure5b1_data,aes(x=Type,y=Score,fill=Metric))+
geom_bar(stat ="identity",position = "dodge",width = 0.6,alpha=0.6,color="black")+#条形图
scale_y_continuous(expand = c(0,0))+#纵坐标原点起始
theme_classic()+#主题
labs(x="Type of irAE")+#横坐标标题
scale_fill_brewer(palette = "Set2")+#设置填充色
theme(axis.text.x = element_text(angle =30,hjust =0.9),#横坐标文本旋转及对齐
legend.position = "top")#图例显示位置
Figure5b1
如果横坐标以及图例想跟作者的顺序完全一致,可以自己手动在上面的代码中修改这两个变量的level。
下面复现另外一部分
# Figure 5b2
Figure5b2_data <- read_excel("./Source data/Figure 5.xlsx",sheet = "Fig.5b2",na="NA")#读入数据
Figure5b2_data$Model<-factor(Figure5b2_data$Model,levels = unique(Figure5b2_data$Model))
Figure5b2_data$Metric<-factor(Figure5b2_data$Metric,levels = c("ROC","Accuracy","Average precision"))
Figure5b2<-ggplot(data = Figure5b2_data,aes(x=Model,y=Score,fill=Metric))+
geom_bar(stat ="identity",position = "dodge",width = 0.6,alpha=0.6,color="black")+
scale_y_continuous(expand = c(0,0))+
theme_classic()+
labs(x="Type of Model")+
scale_fill_brewer(palette = "Set2")+
theme(axis.text.x = element_text(angle =30,hjust =0.9),
legend.position = "top")
Figure5b2
最后拼图即可
Figure5b<-
Figure5b1+Figure5b2+
plot_layout(widths = c(3,1),#设置图形尺寸比例
guides = "collect")&#共享图例
theme(legend.position = "top",#图例位置
legend.key.size = unit(0.3,'cm'))#图例大小
Figure5b
今天的复现就到这儿了。最近比较忙,都是抽空更新公众号,后续还会持续更新!