今天的推文内容来自论文 Clustering and superspreading potential of SARS-CoV-2 infections in Hong Kong, 期刊是 Nature Medicine
论文的数据代码公开,非常好的学习R语言的素材
数据代码地址 https://github.com/dcadam/covid-19-sse
今天的推文内容我们来学习一下论文中的 Extended Data Fig. 3a ,堆积柱形图
这个图是使用R语言的ggplot2包实现,用到的函数是geom_bar(),数据如果是离散变量,通常只需要一列数据就可以,出图以后柱子的高度展示的是这个变量出现的次数,下面我们构造一份数据
df<-data.frame(axis.x=c(rep("A",3),
rep("B",5),
rep("D",4)))
df
ggplot2画图
ggplot(data=df,aes(x=axis.x))+
geom_bar()
如果要搞成堆积柱形图的形式,在添加一列新的变量用来填充颜色
df<-data.frame(axis.x=c(rep("A",3),
rep("B",5),
rep("D",4)),
axis.y=c(sample(c("apple","orange","banana"),
12,replace=T)))
df
library(ggplot2)
ggplot(data=df,aes(x=axis.x))+
geom_bar(aes(fill=axis.y))
以上是基本内容,接下来我们看一下论文中的数据和代码
bar_data <- readr::read_csv("Single_Cell/covid-19-sse-master/data/bar_data.csv")
bar_data
ggplot(data=bar_data) +
geom_bar(aes(x = epi.date, fill = cluster.generation), width = 0.9) +
scale_x_date(name = "Onset Date",
date_breaks = "2 days",
date_labels = "%d %b",
minor_breaks = NULL) +
scale_y_continuous("Case Count", expand = c(0,0), breaks = seq(0,16, by = 2), limits = c(0,16)) +
theme_classic() +
theme(#aspect.ratio = 0.3,
legend.position = 'none',
axis.text.x = element_text(angle = 45, hjust = 1 )) +
scale_fill_viridis_d()
这里学习到了一个新的知识点:ggplot2作图x轴如果是时间格式的数据默认显示的是 日加月份,这个时候如果要更改x轴的标签需要用到
scale_x_date()
函数
接下来使用R语言里的economics数据集画一个折线图
ggplot(data = economics, aes(x = date, y = psavert)) +
geom_line(color = "steelblue")+
theme_bw()+
scale_x_date(breaks = '1 year')+
theme(axis.text.x = element_text(hjust=1,vjust=0.5,angle=90))
breaks的参数可选
- day week month year
日期的显示格式
如果只想显示年
ggplot(data = economics, aes(x = date, y = psavert)) +
geom_line(color = "steelblue")+
theme_bw()+
scale_x_date(breaks = '1 year',
date_labels = "%Y")+
theme(axis.text.x = element_text(hjust=1,vjust=0.5,angle=90))
还可以更改年月日之间的分隔符
ggplot(data = economics, aes(x = date, y = psavert)) +
geom_line(color = "steelblue")+
theme_bw()+
scale_x_date(breaks = '1 year',
date_labels = "%Y,%B,%d")+
theme(axis.text.x = element_text(hjust=1,vjust=0.5,angle=90))
这里我遇到的问题是:我的月份默认显示的是中文,如何将他改成英文呢?
还可以只选取一定的范围
min <- as.Date("2002-1-1")
max <- NA
ggplot(data = economics, aes(x = date, y = psavert)) +
geom_line(color = "steelblue")+
theme_bw()+
scale_x_date(breaks = '1 year',
date_labels = "%Y,%B,%d",
limits = c(min,max))+
theme(axis.text.x = element_text(hjust=1,vjust=0.5,angle=90))
参考链接
- https://www.datanovia.com/en/blog/ggplot-date-axis-customization/
- https://www.r-graph-gallery.com/279-plotting-time-series-with-ggplot2.html
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!