R整理数据
整齐的(经过整理的)数据资料可以方便地被操作、建模和可视化处理,而且拥有特定的结构(Tidy data,整洁数据):
- 每个变量是一列
- 每个观测值是一行
- 每个单元格恰好有一个数据值
dplyr和tidyr包
两个包定义了一系列的动词,可以用比较自然的方式进行数据整理。
dplyr动词
-
filter()
基于逻辑标准的子数据集 -
select()
选择特定的列 -
arrange()
按列的值对行进行排序 -
rename()
重新命名列 -
group_by()
按常用变量对数据进行分组,以便进行计算 -
mutate()
创建一个新变量 -
summarize()
将数据汇总成为单行值
tidyr动词
-
gather()
和spread()
转换宽数据格式和长数据格式
-separate()
andunite()
将单列分成多列,反之亦然。
-complete()
通过完成缺失数据组合,将隐式缺失值转换为显式缺失值