R 数据可视化 —— 对角线分割热图

前言

不是在帮人解决问题,就是在解决问题的路上~~~。

之前所介绍的热图,其每个颜色块都是一个矩形,而今天要介绍的是如何绘制对角线分割热图。也就是每个颜色块矩形被对角线分割为上下两个三角形,然后两个三角形分别用不同的变量来设置填充色。

这种图形重要用于展示行列变量配对值的不同维度信息,比如,对于相关性矩阵,上下两个三角形的填充色可以分别用来表示相关性大小和显著性。类似于下面这张图


看到这张图,第一反应便是可以使用 geom_polygon 函数来分别绘制上三角和下三角,两个图层叠加便可以实现这种效果。而其中的点的数量表示的是显著性大小,可以使用点图来实现。

实现细节

现在已经有思路了,重点是如何将配对变量值转换成坐标信息。

首先,让我们来看看,如何使用 geom_polygon 绘制一个上三角和下三角

library(tidyverse)

upper <- data.frame(
  x = c(0,0,1),
  y = c(0,1,1)
)

lower <- data.frame(
  x = c(0,1,1),
  y = c(0,0,1)
)

ggplot(upper, aes(x, y)) +
  geom_polygon(fill = "red") +
  geom_polygon(data = lower, fill = "blue")

上下三角形之间的区别只是一个坐标点的不同而已,对角线上的两个点是重叠的。

这个图形只是一个配对变量值的形状,这些坐标点属于同一个分组,我们需要指定 group 变量来进行区分

那如何扩展到所有变量对呢?我们只需将每个坐标进行横向和纵向平移即可扩展到整个矩阵。

假设有个变量的取值如下

var1 <- 1:3
var2 <- 4:6

那么它们的组合为

> pairs <- merge(var1, var2)
> pairs
  x y
1 1 4
2 2 4
3 3 4
4 1 5
5 2 5
6 3 5
7 1 6
8 2 6
9 3 6

而每个组合的值便是我们需要的平移量,我们可以对行应用函数生成一个上三角形矩阵

df <- do.call(rbind,
        apply(pairs, 1, function (x) {
          a = x[1]
          b = x[2]
          data.frame(
            x = c(0, 0, 1) + a,
            y = c(0, 1, 1) + b,
            group = paste(a, b, sep = "-")
          )
        }))

ggplot(df, aes(x, y, group = group)) +
  geom_polygon(fill = "red")

现在,我们可以读入准备好的相关分析的数据

data <- read_delim('Downloads/gene_sig.txt')

数据中,每行代表一个组合,基因与免疫细胞之间的相关系数(cor)及显著性(p

> data
# A tibble: 140 × 4
   gene     cell                               p    cor
   <chr>    <chr>                          <dbl>  <dbl>
 1 SIGLEC16 Plasma cells               0.0304    -0.146
 2 SIGLEC16 T cells CD8                0.0000880  0.261
 3 SIGLEC16 T cells follicular helper  0.000250   0.244
 4 SIGLEC16 T cells regulatory (Tregs) 0.000183   0.249
 5 SIGLEC16 Macrophages M0             0.00763   -0.179
 6 SIGLEC16 Macrophages M1             0.000108   0.258
 7 SIGLEC16 Macrophages M2             0.0000851  0.261
 8 SIGLEC16 Dendritic cells activated  0.000596  -0.229
 9 SIGLEC16 Mast cells activated       0.00235   -0.204
10 SIGLEC16 Neutrophils                0.00153   -0.212
# … with 130 more rows

为了方便将字符转换为对应的数值,我们将前两列转换为 factor

data <- mutate_at(data, 1:2, ~ as.factor(.))

如果输入的是矩阵形式,即形如行为基因列为免疫细胞,值为相关系数,可以转换为这种形式

我们可以将提取上三角和下三角的操作封装成函数,方便使用

# 根据配对列表生成上、下三角坐标
triangle <- function(pairs, type = "up") {
  # 默认的上三角坐标基
  x = c(0, 0, 1)
  y = c(0, 1, 1)
  # 下三角的坐标基
  if (type == "lower") {
    x = c(0, 1, 1)
    y = c(0, 0, 1)
  }
  # 生成三角矩阵
  mat = do.call(
    rbind,
    apply(pairs, 1, function (row) {
      a = row[1]
      b = row[2]
      data.frame(
        x = x + a,
        y = y + b,
        group = paste(a, b, sep = "-")
      )
    }))
  return(mat)
}

triangle_data <- function(data, row = 1, col = 2) {
  # 这里设置的 row 和 col 表示要指定的行列变量所在列
  # 生成所有组合
  rows = length(unique(data[[row]]))
  cols = length(unique(data[[col]]))
  pairs = merge(1:rows, 1:cols)
  # 获取上三角坐标
  upper <- triangle(pairs)
  colnames(upper) <- c(paste0("upper.", colnames(upper)[1:2]), "group")
  # 获取下三角坐标
  lower <- triangle(pairs, type = "lower")[1:2]
  colnames(lower) <- paste0("lower.", colnames(lower))
  # 合并坐标
  upper_lower = cbind(upper, lower)
  # 根据分组信息将坐标连接到数据中
  data %>% transmute(across(where(is.factor), ~ as.character(as.numeric(.)))) %>%
    unite("group", row:col, sep = "-") %>%
    cbind(data, .) %>%
    right_join(upper_lower, by = "group")
}

转换数据

> trian_data <- triangle_data(data)
> head(trian_data)
      gene         cell            p    cor group upper.x upper.y lower.x lower.y
1 SIGLEC16 Plasma cells 3.040666e-02 -0.146 14-10      14      10      14      10
2 SIGLEC16 Plasma cells 3.040666e-02 -0.146 14-10      14      11      15      10
3 SIGLEC16 Plasma cells 3.040666e-02 -0.146 14-10      15      11      15      11
4 SIGLEC16  T cells CD8 8.796373e-05  0.261 18-10      18      10      18      10
5 SIGLEC16  T cells CD8 8.796373e-05  0.261 18-10      18      11      19      10
6 SIGLEC16  T cells CD8 8.796373e-05  0.261 18-10      19      11      19      11

由于这份数据中包含 NA 值,即有些 genecell 组合被删掉了,所以在这里需要将 NA 值替换掉

df <- mutate(trian_data, 
             cor = replace_na(cor, 0),
             p = replace_na(p, 1)) 

最后,绘制图形

ggplot(df) +
  geom_polygon(aes(upper.x, upper.y, fill = abs(cor), group = group)) +
  geom_polygon(aes(lower.x, lower.y, fill = p, group = group))

虽然形状都是正确的,但是只有一个填充色,我们明明设置了两个填充色变量的。

其实,在 ggplot 中是不允许在一张图中对同一个 aes 参数的标度进行设置的,但是好在有人帮我们实现了这一功能

ggnewscale 包提供的 new_scale 函数可以允许我们设置多个颜色变量,也适用于其他 aes 变量,如 shapelinetype 等等,先安装包

install.packages("ggnewscale")

使用方式也很简单,只需添加到两个对象之间,可以看到出现了两个图例

library(ggnewscale)

ggplot(df) +
  geom_polygon(aes(upper.x, upper.y, fill = abs(cor), group = group)) +
  new_scale("fill") +
  geom_polygon(aes(lower.x, lower.y, fill = p, group = group))

配置一下好看的颜色

ggplot(df) +
  geom_polygon(aes(upper.x, upper.y, fill = abs(cor), group = group)) +
  # 相关性颜色
  scale_fill_gradientn(colors = colorRampPalette(c("#1E3163", "#00C1D4", "#FFED99","#FF7600"))(10)) +
  new_scale("fill") +
  # 显著性颜色
  geom_polygon(aes(lower.x, lower.y, fill = p, group = group)) +
  scale_fill_gradientn(colours = RColorBrewer::brewer.pal(5, "YlGnBu"))

颜色搭配好了之后,需要将标签添加上去

ggplot(df) +
  geom_polygon(aes(upper.x, upper.y, fill = abs(cor), group = group)) +
  scale_fill_gradientn(colors = colorRampPalette(c("#1E3163", "#00C1D4", "#FFED99","#FF7600"))(10)) +
  new_scale("fill") +
  geom_polygon(aes(lower.x, lower.y, fill = p, group = group)) +
  scale_fill_gradientn(colours = RColorBrewer::brewer.pal(5, "YlGnBu")) +
  scale_x_continuous(breaks = c(1:length(unique(data[[2]]))) + 0.5, expand = c(0,0),
                     labels = sort(unique(data[[2]]))) +
  scale_y_continuous(expand = c(0, 0), breaks = c(1:length(unique(data[[1]]))) + 0.5,
                     labels = sort(unique(data[[1]])), sec.axis = dup_axis()) +
  theme(
    plot.margin = margin(0.5,0.01,0.5,0.01, "cm"),
    axis.title = element_blank(),
    axis.text.y.left = element_blank(),
    axis.ticks.y.left = element_blank(),
    axis.text.x = element_text(angle = 270, hjust = 0, vjust = 0.5)
  )

添加灰色边框

ggplot(df) +
  geom_polygon(aes(upper.x, upper.y, fill = abs(cor), group = group), colour = "grey") +
  ...

好了,万事俱备,只欠点图了。

这里,我的想法是提取出之前画三角形时的起始点位置,并添加偏移到下三角的最右侧,而根据 p 值的不同程度,再添加数值方向上的偏移点,就可以了。

首先,提取起始位置

tmp <- data %>% transmute(across(where(is.factor), as.numeric)) %>%
  `names<-`(c("y", "x")) %>%
  cbind(data, .) %>%
  as.data.frame()

添加偏移点

points <- do.call(rbind, apply(tmp, 1, function(row) {
  p = as.numeric(row['p'])
  x = as.numeric(row['x'])
  y = as.numeric(row['y'])
  df = data.frame()
  if (p < 0.001) {
    df = rbind(df, data.frame(x = x + 0.9, y = y + 0.5))
  }
  if (p < 0.01) {
    df = rbind(df, data.frame(x = x + 0.9, y = y + 0.3))
  }
  if (p < 0.05) {
    df = rbind(df, data.frame(x = x + 0.9, y = y + 0.1))
  }
  df
}))

最后,使用 geom_point 将点添加到图形中

ggplot(trian_data) +
  geom_polygon(aes(upper.x, upper.y, fill = abs(cor), group = group), colour = "grey") +
  scale_fill_gradientn(colors = colorRampPalette(c("#1E3163", "#00C1D4", "#FFED99","#FF7600"))(10)) +
  new_scale("fill") +
  geom_polygon(aes(lower.x, lower.y, fill = p, group = group)) +
  scale_fill_gradientn(colours = RColorBrewer::brewer.pal(5, "YlGnBu")) +
  geom_point(data = points, aes(x, y), size = 0.4) +
  scale_x_continuous(breaks = c(1:length(unique(data[[2]]))) + 0.5, expand = c(0,0),
                     labels = sort(unique(data[[2]]))) +
  scale_y_continuous(expand = c(0, 0), breaks = c(1:length(unique(data[[1]]))) + 0.5,
                     labels = sort(unique(data[[1]])), sec.axis = dup_axis()) +
  theme(
    plot.margin = margin(0.5,0.01,0.5,0.01, "cm"),
    axis.title = element_blank(),
    axis.text.y.left = element_blank(),
    axis.ticks.y.left = element_blank(),
    axis.text.x = element_text(angle = 270, hjust = 0, vjust = 0.5)
  )

由于数据的问题,没有 NA 点的话图像会好看点。

代码和文件已上传到 GitHub
https://github.com/dxsbiocc/learn/blob/main/R/plot/triangle_heatmap.R

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,378评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,356评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,702评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,259评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,263评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,036评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,349评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,979评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,469评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,938评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,059评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,703评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,257评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,262评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,501评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,792评论 2 345

推荐阅读更多精彩内容