数据准备
> library(hflights)
> library(dplyr)
> data("hflights",package = "hflights")
> hflights_df<-tbl_df(hflights)
$filter筛选
按给定的逻辑判断筛选出符合要求的子数据集
除了代码简洁外, 还支持对同一对象的任意个条件组合, 如:
> filter(hflights_df,Month == 1,DayofMonth ==1)
> filter(hflights_df, Month == 1 | Month == 2)
> filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)
> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)
> filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')
$select选择列
> b<-select(hflights_df,Year,Month,DayofMonth,FlightNum,Distance)
> c<-select(hflights_df,Year:ArrTime)
> w<-select(hflights_df,ArrTime:Year)
> v<-select(hflights_df,-Year,-Month,-DayofMonth,-FlightNum,-Distance)
> e<-select(hflights_df,-(Year:ArrTime))
$%>%管道函数
是最常用的一个操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或 表达式进行运行,可以连续操作就像一个链条一样。
# 设置随机种子
> set.seed(1)
# 开始
> n1<-rnorm(10000) # 第1步
> n2<-abs(n1)*50 # 第2步
> n3<-matrix(n2,ncol = 100) # 第3步
> n4<-round(rowMeans(n3)) # 第4步
> hist(n4%%7) # 第5步# 设置随机种子
> set.seed(1)
# 开始
> rnorm(10000) %>%
+ abs %>% `*` (50) %>%
+ matrix(ncol=100) %>%
+ rowMeans %>% round %>%
+ `%%`(7) %>% hist
$arrange数据排序
arrange可以根据变量名依次对数据框进行排序,靠前的变量优先级越高,对变量名使用desc函数即为倒序。plyr(我们以后会介绍的一个包,同样出品自Hadley Wickham)中也有一个相同的此函数。
hflights1<-select(filter(hflights_df,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)
arrange(hflights_df1,ArrTime)
arrange(hflights_df1,desc(AirTime),ArrTime)
$mutate变形
对已有列进行数据运算并添加为新列,值得称赞的是,一段mutate的代码中,靠后的变量操作可以操作前期新添加或改变的变量
c<-mutate(hflights_df, gain = ArrDelay - DepDelay, speed = Distance / AirTime * 60)
$summarise汇总
summarise是对数据框中的变量调用函数进行数据汇总,分组计算,使用分组计算的summarise能做的事情就多了非常多,其可以实现几乎所有的类似于Excel中数据透视表的汇总功能。
summarise(hflights_df, delay = mean(DepDelay, na.rm = TRUE))
> iris[1:4]%>%summarise_each(funs(mean,sum))
Sepal.Length_mean Sepal.Width_mean Petal.Length_mean Petal.Width_mean Sepal.Length_sum1 5.843333 3.057333 3.758 1.199333 876.5 Sepal.Width_sum Petal.Length_sum Petal.Width_sum1 458.6 563.7 179.9
$ group_by()分组动作
此group_by的语法意义几乎与SQL中的group by完全一样,其也是针对被group by的变量进行分组的操作与计算,前提是有这样的操作与计算。summarise配合使用分组计算能做到很大部分的数据透视表可以做的事情:
> w<-group_by(iris,Species)%>%
+ summarise(mean=mean(Sepal.Length),max=max(Sepal.Width),
+ min=min(Sepal.Width),sd=sd(Petal.Width))%>%
+ ungroup%>%
+ mutate(distTest = max-min)
$join合并
假设其形式均为join(x,y)
inner_join 返回所有在y中能查找到的x的行,且包含x和y的所有列;
left_join 返回所有x的行,且包含x和y的所有列,在y中没有查找到的x的行新增的列的值会以NA填充;
right_join 同上,只是x和y调换了一下;
full_join 返回所有x和y的行和列,未查找的部分同样会被NA填充;
anti_join 返回所有未能在y中能查找到的x的行,也只返回x的列
semi_join 返回所有在y中能查找到的x的行,也只返回x的列
$row wise $col wise 分别为按行和按列分组
其实就是apply(x,1,FUN)与,apply(x,2,FUN)但是比apply的效率高(不一定,亲自测一下比较好)
> m=matrix(1:16000000,ncol=2)%>%data.frame
> system.time(m%>%rowwise%>%summarise(sum(X1,X2))) 用户 系统 流逝 10.52 0.00 10.52
> system.time(m%>%apply(1,sum)) 用户 系统 流逝 55.87 0.10 55.97
$bind_cols( ) $bind_rows( )数据合并
mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
mydf2 <- data.frame(x = c(5,6), y = c(50,60))
mydf3 <- data.frame(z = c(100,200,300,400))
bind_rows(mydf1, mydf2)
bind_cols(mydf1, mydf3)
需要说明的是,bind_rows()函数需要两个数据框或tbl对象有相同的列数,而bind_cols()函数则需要两个数据框或tbl对象有相同的行数。