R包 hadley大神之作, 速度快,简洁,链式操作
数据集类型转换
tbl_df()
在使用dplyr处理前,建议将数据集转换为tbl对象-
行筛选
filter() slice()按指定逻辑条件筛选出符合要求的子集合,支持条件组合slice(data,2L) 等价于 filter(data,row_number()==2L)
filter(data, condition) -
排序
arrange() 默认为升序排列 desc()arrange(data,col1,col2,...)
arrange(data,desc(col)) 变量选择
select() 用列名来选择子集合
筛选变量特殊方式 start_with, end_with, contains, matches, one_of, num_range, everything重命名
rename()变形
对已有列进行运算后添加为新列
mutate()新结果+老结果
transmute() 新结果去重
distinct()汇总
summarise()
mean, sd, max, min, n数, n_distinct重后行数,first last采样
sample_n()随机抽取指定数目的样本
sample_frac()随机抽取指定百分比的样本
默认无放回抽取,replacement=TRUE 为可放回抽样分组
group_by()连接join
inner_join(table1,table2,by = , )
left_join()
right_join()
full_join()
semi_join()
anti_join()集合操作set
intersect(x,y) 交集
union(x,y) 并集, 去重
union_all(x,y) 并集,不去重
setdiff(x,y) 差集
setequal(x,y) 判断是否相等条件语句
if_else(condition, true, false)-
case when
case_when(condition1~result1,
condition2~result2)