R语言数据处理之dplyr包

数据准备

> library(hflights)

> library(dplyr)

> data("hflights",package = "hflights")

> hflights_df<-tbl_df(hflights)

$filter筛选

按给定的逻辑判断筛选出符合要求的子数据集

除了代码简洁外, 还支持对同一对象的任意个条件组合, 如:

> filter(hflights_df,Month == 1,DayofMonth ==1)

> filter(hflights_df, Month == 1 | Month == 2)

> filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 |  DepTime == 1430) & UniqueCarrier == 'AA')

$select选择列

> b<-select(hflights_df,Year,Month,DayofMonth,FlightNum,Distance)

> c<-select(hflights_df,Year:ArrTime)

> w<-select(hflights_df,ArrTime:Year)

> v<-select(hflights_df,-Year,-Month,-DayofMonth,-FlightNum,-Distance)

> e<-select(hflights_df,-(Year:ArrTime))

$%>%管道函数

是最常用的一个操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或 表达式进行运行,可以连续操作就像一个链条一样。

# 设置随机种子

> set.seed(1)

# 开始 

> n1<-rnorm(10000)             # 第1步

> n2<-abs(n1)*50                  # 第2步

> n3<-matrix(n2,ncol = 100)  # 第3步

> n4<-round(rowMeans(n3))    # 第4步

> hist(n4%%7)                           # 第5步# 设置随机种子

> set.seed(1)

# 开始

> rnorm(10000) %>%

    +  abs %>% `*` (50)  %>%

+  matrix(ncol=100)  %>%

+  rowMeans %>% round %>% 

+  `%%`(7) %>% hist

$arrange数据排序

arrange可以根据变量名依次对数据框进行排序,靠前的变量优先级越高,对变量名使用desc函数即为倒序。plyr(我们以后会介绍的一个包,同样出品自Hadley Wickham)中也有一个相同的此函数。

hflights1<-select(filter(hflights_df,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)

arrange(hflights_df1,ArrTime)

arrange(hflights_df1,desc(AirTime),ArrTime)

$mutate变形

对已有列进行数据运算并添加为新列,值得称赞的是,一段mutate的代码中,靠后的变量操作可以操作前期新添加或改变的变量

c<-mutate(hflights_df,  gain = ArrDelay - DepDelay,  speed = Distance / AirTime * 60)

$summarise汇总

summarise是对数据框中的变量调用函数进行数据汇总,分组计算,使用分组计算的summarise能做的事情就多了非常多,其可以实现几乎所有的类似于Excel中数据透视表的汇总功能。

summarise(hflights_df,  delay = mean(DepDelay, na.rm = TRUE))

> iris[1:4]%>%summarise_each(funs(mean,sum))  

Sepal.Length_mean Sepal.Width_mean Petal.Length_mean Petal.Width_mean Sepal.Length_sum1          5.843333        3.057333            3.758        1.199333            876.5  Sepal.Width_sum Petal.Length_sum Petal.Width_sum1          458.6            563.7          179.9

$ group_by()分组动作

此group_by的语法意义几乎与SQL中的group by完全一样,其也是针对被group by的变量进行分组的操作与计算,前提是有这样的操作与计算。summarise配合使用分组计算能做到很大部分的数据透视表可以做的事情:

> w<-group_by(iris,Species)%>%

+    summarise(mean=mean(Sepal.Length),max=max(Sepal.Width),

+              min=min(Sepal.Width),sd=sd(Petal.Width))%>%

+    ungroup%>%

+    mutate(distTest = max-min)

$join合并

假设其形式均为join(x,y)

inner_join 返回所有在y中能查找到的x的行,且包含x和y的所有列;

left_join 返回所有x的行,且包含x和y的所有列,在y中没有查找到的x的行新增的列的值会以NA填充;

right_join 同上,只是x和y调换了一下;

full_join 返回所有x和y的行和列,未查找的部分同样会被NA填充;

anti_join 返回所有未能在y中能查找到的x的行,也只返回x的列

semi_join 返回所有在y中能查找到的x的行,也只返回x的列

$row wise $col wise 分别为按行和按列分组

其实就是apply(x,1,FUN)与,apply(x,2,FUN)但是比apply的效率高(不一定,亲自测一下比较好)

> m=matrix(1:16000000,ncol=2)%>%data.frame

> system.time(m%>%rowwise%>%summarise(sum(X1,X2))) 用户  系统  流逝 10.52  0.00 10.52

 > system.time(m%>%apply(1,sum)) 用户  系统  流逝 55.87  0.10 55.97

$bind_cols( ) $bind_rows( )数据合并

mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))

mydf2 <- data.frame(x = c(5,6), y = c(50,60))

mydf3 <- data.frame(z = c(100,200,300,400))

bind_rows(mydf1, mydf2)

bind_cols(mydf1, mydf3)

需要说明的是,bind_rows()函数需要两个数据框或tbl对象有相同的列数,而bind_cols()函数则需要两个数据框或tbl对象有相同的行数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容