1 dplyr包
1.1 展现数据 tbl_df():
函数tbl_df()使得大数据集规范显示出来,行列都只显示10个,跟head差不多,但是head只能控制行,无法控制列,使用tbl_df()就是为了防止数据刷屏。
mtcars_df <- tbl_df(mpg)
mtcars_df
1.2 筛选数据 filter():
按给定的逻辑判断筛选出符合要求的子数据集
filter(longdata, "mpg" == 21, "cyl" == 6)
1.3 排列数据 arrange():按给定的列名依次对行进行排序
arrange(mtcars_df, cyl, desc(carb))# 先对cyl列正序排列,再对carb列倒序排列,descending order倒序排列
1.4 选择子集 select():用列名作参数来选择子数据集
select(mtcars_df, mpg, disp:wt, carb) # disp:wt表示从disp列选到wt列
1.5 变形 mutate():对已有列进行数据运算并添加为新列
mutate(mtcars_df, NO = 1:dim(mtcars_df)[1], res = hp - drat)
1.6 总览数据 summarise():对数据框调用其它函数进行汇总操作, 返回一维的结果
summarise(mtcars_df, mdisp = mean(disp, na.rm = TRUE), mhp = mean(hp, na.rm = TRUE))
1.7 数据分组 group_by():当对数据集通过group_by()添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作。
cars <- group_by(mtcars_df, cyl)
(countcars <- summarise(cars, count = n())) # count = n()用来计算次数
2 tidyr包
2.1 宽转长 gather():使用gather()函数实现宽表转长表,语法如下:
# gather(data, key, value, …, na.rm = FALSE, convert = FALSE)
# data:需要被转换的宽形表
# key:将原数据框中的所有列赋给一个新变量key
# value:将原数据框中的所有值赋给一个新变量value
# …:可以指定哪些列聚到同一列中
# na.rm:是否删除缺失值
longdata <- gather(mtcars_df, attribute, value, -mpg)
longdata <- gather(mtcars_df, attribute, value)
2.2 长转宽 spread():有时,为了满足建模或绘图的要求,往往需要将长形表转换为宽形表,或将宽形表变为长形表。
如何实现这两种数据表类型的转换。使用spread()函数实现长表转宽表,语法如下:
# spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE)
# data:为需要转换的长形表
# key:需要将变量值拓展为字段的变量
# value:需要分散的值
# fill:对于缺失值,可将fill的值赋值给被转型后的缺失值
spread(longdata, attribute, value)
2.3 合并 unit():unite的调用格式如下
# unite(data, col, …, sep = “_”, remove = TRUE)
# data:为数据框
# col:被组合的新列名称
# …:指定哪些列需要被组合
# sep:组合列之间的连接符,默认为下划线
# remove:是否删除被组合的列
TIMES <- data.frame(years = c('1990', '1991', '1992'), months = c(2,3,4), day = c(1, 2, 3))
(TIMESunite <- unite(TIMES, information, months, day, sep= "-"))
2.4 拆分 separate():separate()函数可将一列拆分为多列,一般可用于日志数据或日期时间型数据的拆分,语法如下:
# separate(data, col, into, sep = “[^[:alnum:]]+”, remove = TRUE,
# convert = FALSE, extra = “warn”, fill = “warn”, …)
# data:为数据框
# col:需要被拆分的列
# into:新建的列名,为字符串向量
# sep:被拆分列的分隔符
# remove:是否删除被分割的列
TIMESsep <- separate(TIMESunite, information, c("months", "day"), sep = "-")
R语言中的连接dplyr中的join系列与merge函数
R语言中dplyr包jion函数之目前我看到过的最形象的教程
dplyr官方参考函数
R成精系列-用dplyr高效变换数据和处理数据
R成精系列-用dplyr高效变换数据和处理数据
R语言常用的包