使用ggplot2和ggrepel包做火山图

我是个R新手,只会简单的画一些图,还不能随心所欲的画图。Hadley Wickham男神的ggplot2包以及tidyverse超级大包真是让人膜拜!
最近实验室留学生让我帮他做个火山图,火山图就是点图,用ggplot2是可以完美作图的,但我还不能随心所欲的用ggplot2去作图。在Google上搜索了火山图的方法和教程,结合留学生的数据尝试了一下。另外在Biostar上发现了有人推荐一个EnhancedVolcano包来做火山图。

1. 数据的模样和导入

数据的模样
# 数据导入
>library("ggplot2", lib.loc="C:/Program Files/R/R-3.5.1/library")
>library("ggrepel", lib.loc="C:/Program Files/R/R-3.5.1/library")
> hs_data <- read.delim("clipboard")
> head(hs_data)
        ID                                               Name_des          FC     log2FC      Pvalue
1 Com_2035                               D-benzylpenicilloic acid 0.000381132 -11.357423 4.07555e-04
2 Com_2160                                           rosuvastatin 0.000768929 -10.344863 1.84000e-05
3 Com_2025                                                ARAMITE 0.000943335 -10.049943 2.39000e-11
4 Com_1907 Glycolic acid pentaethoxylate 4-tert-butylphenyl ether 0.001348441  -9.534492 1.98087e-04
5   Com_53                                     2-Pyrroloylglycine 0.001852784  -9.076090 2.05000e-07
6  Com_147                          4-PHOSPHOPANTOTHENOYLCYSTEINE 0.002831398  -8.464270 9.25000e-08

2. 试探性画图

> ggplot(data = hs_data, aes(x = log2FC, y = -log10(Pvalue))) + geom_point()

这图不是想要的,需要将有统计学差异的数据凸显出来,一般设置p值小于0.05,log2FC绝对值大于1.5。

3. 精雕细琢

设置不同的颜色域并作图

> hs_data$threshold = as.factor(ifelse(hs_data$Pvalue < 0.05 & abs(hs_data$log2FC) >= 1.5, ifelse(hs_data$log2FC> 1.5 ,'Up','Down'),'NoSignifi'))
> ggplot(data = hs_data, aes(x = log2FC, y = -log10(Pvalue), colour=threshold,label = ID)) +
  geom_point(alpha=0.4, size=3.5) +
  scale_color_manual(values=c("blue", "grey","red"))

使用geom_vline,geom_hline添加阈值线,使用xlim调整x轴刻度。

> ggplot(data = hs_data, aes(x = log2FC, y = -log10(Pvalue), colour=threshold,label = ID)) +
  geom_point(alpha=0.4, size=3.5) +
  scale_color_manual(values=c("blue", "grey","red")) +
  xlim(c(-11.5, 11.5)) +
  geom_vline(xintercept=c(-1.5,1.5),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(0.05),lty=4,col="black",lwd=0.8)

使用labs()和theme()修改x y轴的名字,添加标题和修改图例。

> ggplot(data = hs_data, aes(x = log2FC, y = -log10(Pvalue), colour=threshold,label = ID)) +
  geom_point(alpha=0.4, size=3.5) +
  scale_color_manual(values=c("blue", "grey","red")) +
  xlim(c(-11.5, 11.5)) +
  geom_vline(xintercept=c(-1.5,1.5),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(0.05),lty=4,col="black",lwd=0.8) +
  labs(x="log2(fold change)",y="-log10 (p-value)",title="Differential metabolites") +
  theme(plot.title = element_text(hjust = 0.5), legend.position="right", legend.title = element_blank())

p值小于0.05,log2FC绝对值大于1.5这一阈值条件过于宽松,你会发现符合条件的点非常多,因此提高阈值到p值小于0.001 & log2FC绝对值大于3,从而缩小候选基因或代谢物的范围。
此外可以使用ggrepel包给满足特定条件的点加标签,从 图上告诉你这些点究竟是什么基因或者代谢物。

> hs_data$threshold = as.factor(ifelse(hs_data$Pvalue < 0.001 & abs(hs_data$log2FC) >= 3, ifelse(hs_data$log2FC> 3 ,'Up','Down'),'NoSignifi'))
> ggplot(data = hs_data, aes(x = log2FC, y = -log10(Pvalue), colour=threshold,label = ID)) +
  geom_point(alpha=0.4, size=3.5) +
  scale_color_manual(values=c("blue", "grey","red")) +
  xlim(c(-11.5, 11.5)) +
  geom_vline(xintercept=c(-3,3),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(0.001),lty=4,col="black",lwd=0.8) +
  labs(x="log2(fold change)",y="-log10 (p-value)",title="Differential metabolites") +
  theme(plot.title = element_text(hjust = 0.5), legend.position="right", legend.title = element_blank())

4. 给钟意的点加标签

ggrepel使得给点加标签简单又美观。看看p< 0.000001且log2FC绝对值大于3的是这些点究竟是什么基因或者代谢物。

> ggplot(data = hs_data, aes(x = log2FC, y = -log10(Pvalue), colour=threshold,label = ID)) +
  geom_point(alpha=0.4, size=3.5) +
  scale_color_manual(values=c("blue", "grey","red")) +
  xlim(c(-11.5, 11.5)) +
  geom_vline(xintercept=c(-3,3),lty=4,col="black",lwd=0.8) +
  geom_hline(yintercept = -log10(0.001),lty=4,col="black",lwd=0.8) +
  labs(x="log2(fold change)",y="-log10 (p-value)",title="Differential metabolites") +
  theme(plot.title = element_text(hjust = 0.5), legend.position="right", legend.title = element_blank()) +  
    geom_text_repel(
    data = subset(hs_data, hs_data$Pvalue < 0.000001 & abs(hs_data$log2FC) >= 3),
    aes(label = ID),
    size = 3,
    box.padding = unit(0.5, "lines"),
    point.padding = unit(0.8, "lines"), segment.color = "black", show.legend = FALSE )

更灵活的加标签我还未学会,比如指定某一个或某几个点加标签,将标签水平或者垂直排列等等操作。欢迎大家交流R语言可视化的问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • 写在前面 ggplot2 是一个功能强大且灵活的R包 ,由Hadley Wickham 编写,其用于生成优雅的图...
    Boer223阅读 27,882评论 0 67
  • 简介 文章较长,点击直达我的博客,浏览效果更好。本文内容基本是来源于STHDA,这是一份十分详细的ggplot2使...
    taoyan阅读 50,874评论 7 159
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,154评论 0 9
  • 今夜,情难了 我们轻啄酒杯浅浅笑 忘了背负的沉重稀疏的眉角 满一杯 孩子般 洒脱地把头高高昂 泻一地鸡毛蒜皮 倾一...
    石小榴阅读 239评论 0 0
  • 今天继续读《小狗钱钱1》,以下是今天的笔记。 书中有句话是这样的: 一个人能否安排好自己的花费,是在他人生的早期就...
    一直生长的苹果树阅读 554评论 0 0