今天继续分享生信分析中常见的图形 -- scatterplot
。散点图属于单纯靠谱的图形,这性格特点还是很容易理解的,这里就不多说了,下面展示如何用ggplot2
绘制漂亮的散点图。
示例数据
下面绘图使用的数据集 corruption
来自 R 包practicalgg
,如果安装了该包可以直接使用,没有安装的话可以直接从github上下载:https://github.com/wilkelab/practicalgg/tree/master/data/corruption.rda。由于本人没有安装该包,直接下载数据使用。
library(tidyverse)
load('corruption.rda')
corrupt <- corruption %>% filter(year == 2015) %>% na.omit() %>% mutate(region = case_when(
region == "Middle East and North Africa" ~ "Middle East\nand North Africa",
region == "Europe and Central Asia" ~ "Europe and\nCentral Asia",
region == "Sub Saharan Africa" ~ "Sub-Saharan\nAfrica", TRUE ~ region))
country_label <- c("Germany", "Norway", "United States", "Greece",
"Singapore", "Rwanda", "Russia", "Venezuela", "Sudan",
"Iraq", "Ghana", "Niger", "Chad", "Kuwait", "Qatar",
"Myanmar", "Nepal", "Chile", "Argentina", "Japan", "China")
corrupt <- corrupt %>% mutate(label = ifelse(country %in% country_label , country, ""))
绘图选择了一部分数据(2015年),并进行了一些预处理,如去除缺失值,将长的region字段添加换行符方便在图上显示。为了在图上标识想关注的数据点,给数据集添加了一列标签列。添加标签列时,有个小技巧,给需要关注的数据添加标签,不想关注的数据添加空字符串即可。
绘图
废话不多说,先看绘图代码:
library(ggplot2)
library(ggrepel)
colors <- c("#E69F00", "#56B4E9", "#009E73", "#F0E442", "#0072B2", "#999999")
p <- ggplot(corrupt, aes(cpi, hdi, color = region, fill = region)) +
geom_point(size = 2.5, alpha = 0.5, shape = 21) +
geom_smooth(aes(color = "y ~ log(x)", fill = "y ~ log(x)"), method = "lm", formula = y~log(x), se = FALSE, fullrange = T) +
geom_text_repel(aes(label = label), color = "black", size = 9/.pt,
point.padding = 0.1, box.padding = 0.6, min.segment.length = 0, max.overlaps = 1000, seed = 7654) +
scale_color_manual(name = NULL, values = colors) +
scale_fill_manual(name = NULL, values = colors) +
scale_x_continuous(name = "Corruption Perceptions Index, 2015 (100 = least corrupt)", limits = c(10, 95), breaks = c(20, 40, 60, 80, 100), expand = c(0, 0)) +
scale_y_continuous(name = "Human Development Index, 2015\n(1.0 = most developed)", limits = c(0.3, 1.05), breaks = c(0.2, 0.4, 0.6, 0.8, 1.0), expand = c(0, 0)) +
guides(color = guide_legend(nrow = 1, override.aes = list(linetype = c(rep(0, 5), 1), shape = c(rep(21, 5), NA)))) +
theme_bw() +
theme(legend.position = "top", legend.justification = "right", legend.text = element_text(size = 9), legend.box.spacing = unit(0, "pt"), legend.key = element_blank())
p
结果如下:
整个绘图过程都是基于ggplot2
语法,其中添加标签使用的是ggrepel
包里面的geom_text_repel
函数。绘图过程虽然不难,但有一点还是想说明一下,这里的图例经过了单独修改。通常我们绘制散点图时,正常的图例应该只有圆点,不会显示拟合线。这里在图例中特别添加了一下拟合线。
绘制散点图还有一个很好的补充性R包 -- scattermore
,该包支持ggplot2
语法绘图,我们可以结合ggplot2
来使用。什么情况下用这个包呢?当然,我也只是用了这个包的一个功能,将图中所有独立的点变成一个整体。通常绘图完成后,我们保存为pdf
格式这样的矢量图,方便后续用photoshop
、AI
等工具进行细致编辑。若图中的点特别多如火山图,这时用工具打开这样像素点特别多的图就有些吃设配的配置了,配置低的话编辑起来会卡顿。故想后续编辑方便,可以结合scattermore
包来画图,使用起来也很简单,只需将代码geom_point
替换为geom_scattermore
即可。
往期绘图
可视化:barplot
可视化:泡泡图
可视化:嵌套饼图
可视化:环状条形图
可视化:分组环状条形图
可视化:小提琴图
可视化:蜜蜂图