1、tidyr (单表格操作)
tidyr: Easily Tidy Data with 'spread()' and 'gather()' Functions (每一列是变量,每一行是观察值)。
2、dplyr (可以进行多表格操作)
dplyr: a grammar of data manipulation。(函数功能略)
链式操作符%>%
两个百分号中间夹着一个大于号,称为链式操作符,它功能是用于实现将一个函数的输出传递给下一个函数,作为下一个函数的输入。
在 Rstudio 中可以使用 ctrl+shift+M 快捷键输出出来。
head(mtcars,20) %>% tail(10)
dplyr::group_by(iris,Species) #分组,双冒号代表只属于 dplyr 函数
iris %>% group_by(Species) %>% summarise(avg=mean(Sepal.Width)) %>% arrange(avg)
dplyr::mutate(iris,new=Sepal.Length+Petal.Length) #增加新变量
多表操作
多表连接
多表取集