UpSetR:集合可视化神包

对于集合的可视化,第一时间想到的都是韦恩图(venn diagram),一般集合不超过5个的时候,可视化效果还是不错的

但是一旦数据集增加,比如说五个的时候,你就很难从图中解读出想要的信息了。


即便你把它画的很美观,如下图那样,还是还是很难直观找到自己需要的信息。可视化的目的不是炫技,而是快速理解数据。

还好R语言里新增了一个集合可视化神包--UpSetR。它可视化的结果的基础版本长下面这个样子:

UpSetR

上述是分析了不同电影的所属类型得到的结果。在我不告诉你任何图示信息的情况下,请思考下那种电影类型拍的最多,然后哪两种电影电影类型拍的最少。

基本上我不用过多和你解释图示,你也能很快的找到答案。图中黑色表示该位置有数据,灰色的点表示没有。不同点连线表示存在交集。具体数据可以看上面的条形图。不同类型的数据的总量看左边的条形图。

如何画图

UpSetR是一个R包,这意味着你可以简单通过一行命令就能安装

install.packages(UpSetR)

UpsetR接受三种类型的数据输入:

  1. 表格形式,在R语言里就是数据框了。行表示元素,列表示数据集分配和额外信息。
  2. 元素名的集合(没见过,不知道。。)fromList
  3. venneuler包引入的用于描述集合交集的向量fromExpression

光看文字肯定是不懂的,所以直接实战把

输入方式一: table

我们用UpSetR提供的测试数据作为演示

require(ggplot2); require(plyr); require(gridExtra); require(grid);
movies <- read.csv(system.file("extdata","movies.csv",package = "UpSetR"), header = TRUE, sep=";")

看下数据长什么样子

View(movies)
Movies

Name是不同的电影,然后不同发布时间,后面接着电影跟随的类型。
绘图用的upset函数:

upset(movies, nsets = 7, nintersects = 30, mb.ratio = c(0.5, 0.5),
      order.by = c("freq", "degree"), decreasing = c(TRUE,FALSE))

稍微解释一下参数

nsets: 最多展示多少个集合数据。毕竟原来有20多种电影类型,放不完的
nintersects: 展示多少交集。
mb.ratio: 点点图和条形图的比例。
order.by: 交集如何排序。这里先根据freq,然后根据degree
decreasing: 变量如何排序。这里表示freq降序,degree升序

更有意思的是,我们还能在图中描述出1970-1980年恐怖片和剧情片的情况

# 用于query的函数
between <- function(row, min, max){
  newData <- (row["ReleaseDate"] < max) & (row["ReleaseDate"] > min)
}

upset(movies, sets=c("Drama","Comedy","Action","Thriller","Western","Documentary"),
      queries = list(list(query = intersects, params = list("Drama", "Thriller")),
                     list(query = between, params=list(1970,1980), color="red", active=TRUE)))

这里必须介绍一个神奇的参数queries

queries接受query所组成的list。然后不同query也是一个list,这个list由查询函数,和参数组成,参数也是一个list。查询函数可以用系统自带的,也可以自己写一个。比如说这里的between

此外还有一个参数叫做attribute.plots能够添加在upset的结果图中加入属性图。

upset(movies,attribute.plots=list(gridrows=60,plots=list(list(plot=scatter_plot, x="ReleaseDate", y="AvgRating"),
                                                         list(plot=scatter_plot, x="ReleaseDate", y="Watches"),list(plot=scatter_plot, x="Watches", y="AvgRating"),
                                                         list(plot=histogram, x="ReleaseDate")), ncols = 2))

这个attribute.plots接受各个plot函数组成的作图函数,可以用自带的,也可以自己写,只要保证里面的参数设置正确了。

其他参数就不继续演示了,因为我懒。

输入方式二:集合交集向量

集合交集向量长下面这个样子

input <- c(
  "MAQ"=144600,
  "FaSD"=16532, 
  "Bcftools"=283, 
  "GATK"=15160, 
  "MAQ&FaSD"=16323, 
  "MAQ&Bcftools"=636, 
  "Bcftools&GATK"=65435, 
  "FaSD&GATK"=33874, 
  "MAQ&FaSD&Bcftools"=114, 
  "MAQ&FaSD&GATK"=41858, 
  "MAQ&Bcftools&GATK"=4, 
  "FaSD&Bcftools&GATK"=6603, 
  "MAQ&FaSD&Bcftools&GATK"=8357
)

输入格式一目了然,然后数据可以用fromExpression进行转换

data <- fromExperssion(input)

转换后的数据就可以拿去用upset作图了

upset(data)

福利:Y叔的upsetplot()

我们可以对ChIP-Seq分析得到的peak进行注释

require(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakfile <- system.file("extdata", "sample_peaks.txt", package="ChIPseeker")
peakAnno <- annotatePeak(peakfile, tssRegion=c(-3000, 3000), TxDb=txdb)
peakAnno

然后就可以用upsetplot画画了,太简单了。

upsetplot(peakAnno, vennpie=TRUE)

下一期写一篇Y叔的upsetplot是如何写的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容