主要学习内容
1.以dplyr包安装为例学习加载和安装的过程
2.学习了dplyr的五个基础函数的用法
mutate()新增列
select()筛选列
filter()筛选行
arrange()按某1列或某几列对整个表格进行排序
summarise()汇总
3.dplyr两个实用技能
管道操作 %>%
count统计某列的unique值
4.dplyr处理关系数据
合并连接
筛选连接
集合操作
1.R包的加载和安装
1.1镜像设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
1.2安装包
install.packages(“包”) #包在CRAN网站上
BiocManager::install(“包”) #包在Biocductor上
1.3加载包
library(包)
#或者
require(包)
这里以dplyr包安装为例
dplyr包 像操作数据库一样操作 R
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
2.dplyr五个基础函数
2.1新增列
mutate(data,新增内容)
mutate函数会保留修改后的列和修改之前的列
mutate(test, new = Sepal.Length * Sepal.Width)
2.2按列筛选
select(data,筛选的要求)
按列号和列名进行筛选
2.3按行筛选
filter(data, 筛选的要求)
2.4按某1列或某几列对整个表格进行排序
arrange(data,排序的要求)
2.5汇总
summarise(data, 需计算的要求和值)
可结合group_by分组计算
3.dplyr两个实用技能
3.1管道操作
%>%
快捷键cmd/ctr + shift + M
3.2count统计某列的unique值
count(data,Species)
4.dplyr处理关系数据
三类连接:
• 合并连接:向数据框中加入新变量,新变量的值是另一个数据框中的匹配观测。
• 筛选连接:根据是否匹配另一个数据框中的观测,筛选数据框中的观测。
• 集合操作:将观测作为集合元素来处理。
4.1合并连接
4.1.1内连接
内连接保留同时存在于两个表中的观测,取交集
inner_join(data1,data2, by = '链接内容')
4.2外连接
外连接则保留至少存在于一个表中的观测
左连接:保留 x 中的所有观测
left_join(data1,data2, by = '链接内容')
最常用的连接是左连接,它会保留原表中的所有观测,即使它没有匹配。
全连:保留 x 和 y 中的所有观测
full_join(data1,data2, by = '链接内容')
4.2筛选连接
半连接:返回能够与y表匹配的x表所有记录semi_join
semi_join(data1,data2, by = '链接内容')
反连接:返回无法与y表匹配的x表的所记录anti_join
anti_join(data1,data2, by = '链接内容')
4.3集合操作
简单合并
bind_rows() #两个表格列数要相同
bind_cols() #两个数据框有相同的行数
合并的补充
intersect(x, y)
返回既在 x 表,又在 y 表中的观测。
union(x, y)
返回 x 表或 y 表中的唯一观测。
setdiff(x, y)
返回在 x 表,但不在 y 表中的观测。