Day6-学习R包
安装
1.mutate(),新增列
2.select(),按列筛选
(1)按列号筛选
select(test,要选的列号)
(2)按列名筛选
3.filter()筛选行
filter(test, Species == "setosa")
filter(test, Species == "setosa"&Sepal.Length > 5 )
filter(test, Species %in% c("setosa","versicolor"))
根据情况变动
4.arrange(),按某1列或某几列对整个表格进行排序
arrange(test, Sepal.Length)#默认从小到大排序
arrange(test, desc(Sepal.Length))#用desc从大到小
5.summarise():汇总
summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差
dplyr两个实用技能
1:管道操作 %>% (cmd/ctr + shift + M)
2:count统计某列的unique值
dplyr处理关系数据
1.內连inner_join,取交集
inner_join(test1, test2, by = "x")
2.左连left_join
left_join(test1, test2, by = 'x')
3.全连full_join
full_join( test1, test2, by = 'x')
4.半连接:返回能够与y表匹配的x表所有记录semi_join
semi_join(x = test1, y = test2, by = 'x')
5.反连接:返回无法与y表匹配的x表的所记录anti_join
anti_join(x = test2, y = test1, by = 'x')
6.简单合并