dplyr包

1.包和数据的安装

安装dplyr包

install.packages("dplyr")
library(dplyr)

安装hflights包，该软件包中的飞机航班数据将用于本文中dplyr包各个函数的演示

install.packages("hflights")
library(hflights)

通过以下代码，简单了解示例数据集hflights

class(hflights);dim(hflights)
head(hflights)

在利用dplyr包处理数据之前，需要将数据装载成dplyr包的一个特定对象类型（data frame tbl / tbl_df），也称作 tibble 类型，可以用 tbl_df函数将数据框类型的数据装载成 tibble 类型的数据对象

packageVersion("dplyr")
attach(hflights)
tbl_hflights<-tbl_df(hflights)
class(tbl_hflights)
tbl_hflights

输出结果如下：可以看到，将hflights转换成tbl_df类型后，R语言打印数据集tbl_hflights的数据时，仅打印了适合屏幕宽度的数据，屏幕显示不下的剩余两个变量的数据（CancellationCode , Diverted ）并没有打印出来，这使得屏幕上打印出来的数据可读性更强，也更美观。此外，还在每一列变量名称的下面显示了变量的类型。

2.数据记录筛选filter

filter() 返回行的子集,按照指定的条件筛选符合条件中逻辑判断要求的数据记录，类似于SQL语句中的where语句中的筛选条件，但不能筛选某些变量

# 选择2011年1月而且起飞时间为1400的所有数据记录
filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
# '且'的关系除了"，"也可以用&符号表示，也就是列出的所有条件同时满足
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)

# 选择起飞时间在1400之前的航班
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)

# '或'的关系用|符号表示。选择起飞时间为1400或者1430的航班,且UniqueCarrier为'AA'
filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')

3.变量筛选select

select()返回列的子集,filter()函数只能将指定条件的观测筛选出来，并不能筛选出只关心的变量，为了弥补这个缺陷，select函数可以通过指定列名选择指定的变量进行分析，而且比subset()函数更灵活，而且选择变量的同时也可以重新命名变量。
如果需要对数据集中的某些变量进行重命名的话，可直接使用rename()函数，语法如下：rename(tbl, newname = oldname,...)
如果剔除某些变量的话，只需在变量前加上负号“-”。
Dplyr包有下列辅助函数，用于在select()中选择变量：
starts_with("X"): 以 "X"开头的变量名
ends_with("X"): 以 "X"结束的变量名
contains("X"): 包含 "X"的变量名
matches("X"): 匹配正则表达式“x"的变量名
num_range("x", 1:5): 变量名为 x01, x02, x03, x04 and x05
one_of(x): 出现在字符向量x中的所有变量名
everything(): 选择所有变量，一般调整数据集中变量顺序时使用
在select()中直接使用列时不需要引用""，但使用上述辅助函数时必须引用""

# 选择指定的变量
select(tbl_hflights,Year,Month,DayofMonth,FlightNum,Distance)

# 用类似于生成数字序列的方式选择变量
# 选择Year开始一直到ArrTime结束的所有变量
select(tbl_hflights,Year:ArrTime)

# 也可以按照倒过来的顺序选择
select(tbl_hflights,ArrTime:Year)

# 除了选择变量，也可以删除指定的变量
select(tbl_hflights,-Year,-Month,-DayofMonth,-FlightNum,-Distance)

select(tbl_hflights,-(Year:ArrTime))

4.数据排序arrange

arrange根据一个或多个变量对行排序,默认为升序排列，也可以对列名加desc()进行降序排序。

#抽取数据
tbl_hflights1<-select(filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)
tbl_hflights1

# 将数据按照ArrTime升序排序
arrange(tbl_hflights1,ArrTime)

# 将数据先按照AirTime降序，再按照ArrTime升序排列
arrange(tbl_hflights1,desc(AirTime),ArrTime)

5.变量变换/重构mutate

mutate函数可以基于原始变量重新计算得到新的变量，应用指定的公式，派生新的数据列，或重写已经存在的数据列,在做数据分析预处理的时候经常会用到该功能。允许在同一次调用中使用新变量来创建下一个变量。例如：mutate(my_df, x = a + b, y = x + c)
同样可以进行数据扩展的还有transmute()函数，与mutate()函数不同的是，该函数扩展新变量的同时，将删除所有原始变量。
由ArrTime-DepTime得到航班的飞行所用时长，并存储在DurTime变量中,飞行所用时长（单位：分钟）的计算方式为：小时数*60+分钟数,同时将飞行的分钟数，换算成秒。优势在于可以在同一语句中对刚增加的列进行操作。

tbl_hflights2<-mutate(tbl_hflights1,
                      DurTime = (as.numeric(substr(ArrTime,1,2)) - as.numeric(substr(DepTime,1,2)))*60 + as.numeric(substr(ArrTime,3,4)) ,
                      Dur_Time1 = DurTime * 60)
tbl_hflights2

6.数据汇总summarize

summarize函数实现对数据的汇总，比如求和、计算平均值等。
对tbl对象执行聚合运算，还可以结合group_by()函数实现分组聚合，单独对每个分组进行聚合运算。
min()：返回最小值
max()：返回最大值
mean()：返回均值
sum()：返回总和
sd()：返回标准差
var()：方差
diff(range())：x值的范围
median()：返回中位数
quantile(x, p)：x的第P个分位数
IQR()：返回四分位极差
n()：返回观测个数
n_distinct()：统计数据集中无重复值的数量
first()：返回第一个观测
last()：返回最后一个观测
nth()：返回n个观测

# 计算航班平均飞行时长
summarize(tbl_hflights2,avg_dur = mean(DurTime),sum_air = sum(AirTime))

7.数据分组group_by

group_by函数实现对数据进行分组，结合summarize函数，可以对分组数据进行汇总统计。然后可以使用ungroup函数，移除tbl对象的分组状态

# 按照航空公司分组进行汇总
summarise(group_by(tbl_hflights, UniqueCarrier), 
          m = mean(AirTime,na.rm = TRUE), 
          sd = sd(AirTime,na.rm = TRUE), 
          cnt = n(), 
          me = median(AirTime,na.rm = TRUE))

8.多步操作连接符%>%管道函数

是最常用的一个操作符，就是把左侧准备的数据或表达式，传递给右侧的函数调用或表达式进行运行，可以连续操作就像一个链条一样。
使用时把数据名作为开头，然后依次对此数据进行多步操作。
这种运算符的编写方式使得编程者可以按数据处理时的思路写代码, 一步一步操作不断叠加，在程序上就可以非常清晰的体现数据处理的步骤与背后的逻辑。

# 对数据进行分布处理：分组-汇总-排序-打印
tbl_hflights %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%
  arrange(desc(m),sd) %>%
  head(10)

9.挑选随机样本sample_n, sample_frac

sample_n随机选出指定个数（样本容量）的样本数；sample_frac随机选出指定百分比（占整个数据集总体百分比）的样本数。

# 随机抽取10个样本
sample_n(tbl_hflights,10)

# 随机抽取10%的样本
tbl_hflights %>% 
  sample_frac(0.1) %>%
  select(Year:UniqueCarrier) %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(ArrTime,na.rm = TRUE), cnt = n()) %>%
  arrange(desc(m))

10.

可以通过如下名称查看dplyr包中自带的参考资料

# 查看自带的参考资料
vignette(package = "dplyr")
vignette("introduction", package = "dplyr")

11.连接操作 join

inner_join#內连
left_join#左连
right_join#右连
full_join#全连
semi_join#返回能够与y表匹配的x表所有记录
anti_join#返回无法与y表匹配的x表的所有记录

df <- data.frame(x = c('a','b','c','a','b','e','d','f'), y = c(1,2,3,4,5,6,7,8))
df
df2 <- data.frame(x = c('a','b','c'), z = c('A','B','C'))
df2

#转换为tbl对象
df2tbl <- tbl_df(df)
df2tbl
df2tbl2 <- tbl_df(df2)
df2tbl2

inner_join(x = df2tbl, y = df2tbl2, by = 'x')

semi_join(x = df2tbl, y = df2tbl2, by = 'x')

anti_join(x = df2tbl, y = df2tbl2, by = 'x')

12.数据合并bind_rows/cols

在R基础包里有cbind()函数和rbind()函数实现按列的方向进行数据合并和按行的方向进行数据合并，而在dplyr包中也添加了类似功能的函数，它们是bind_cols()函数和bind_rows()函数。

mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
mydf1

mydf2 <- data.frame(x = c(5,6), y = c(50,60))
mydf2

mydf3 <- data.frame(z = c(100,200,300,400))
mydf3

#bind_rows()函数需要两个数据框或tbl对象有相同的列数
bind_rows(mydf1, mydf2)

#bind_cols()函数则需要两个数据框或tbl对象有相同的行数
bind_cols(mydf1, mydf3)

13.集合操作set

#取两个集合的交集
intersect(x,y, ...)
#取两个集合的并集，并进行去重
union(x,y, ...)
#取两个集合的并集，不去重
union_all(x,y, ...)
#取两个集合的差集，在x中不在y中
setdiff(x,y, ...)
#判断两个集合是否相等
setequal(x, y, ...)

14.连接数据库数据

如果需要获取MySQL数据库中的数据时，可以直接使用dplyr包中的src_mysql()函数，其功能类似于RMySQL包。src_mysql()函数语法如下：

src_mysql(dbname, host = NULL, port = 0L, user = "root", password = "",...)

通过以上方式连接MySQL数据库后，使用tbl()函数获取数据集，tbl()函数语法如下：

tbl(src,from = '')

其中src为src_mysql()函数对象，from为SQL语句

最后编辑于：2019.01.23 13:09:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,783评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,360评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 142,942评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,507评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,324评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,299评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,685评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,358评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,652评论 1赞 293
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,704评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,465评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,318评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,711评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,991评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,265评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,661评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,864评论 2赞 335