镜像设置
- 编辑文件file.edit('~/.Rprofile')
- 设置镜像options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
中科大源
保存重启 - 查询 options()BioC_mirror
安装加载
install.packages("dplyr")
library(dplyr)
install.packages(“包”)/BiocManager::install(“包”)。取决于你要安装的包存在于CRAN网站还是Biocductor
dplyr的五个基础函数
mutate(test, new= Sepal.Length*Sepal.Width)
#新建列
select(test,1)
#按列号筛选第一列
select(test,c(1,5))
#筛选第1,5列
select(test,Sepal.Length)
#按列名筛选
select(test,Petal.Length,Petal.Width)
vars<-c("Petal.Length","Petal.Width")
select(test,one_of(vars))
#筛选这两列中所有的向量
filter(test, Species=="setosa")
#筛选行
filter(test, Species=="setosa"&Sepal.Length>5)
#筛选行,并且向量大于5
filter(test, Species%in%c("setosa","versicolor"))
#筛选这两行,并不是行名哦
arrange(test,Sepal.Length)
#按这一列大小排序,从小到大
arrange(test,desc(Sepal.Length))
#desc来从大到小
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
#计算这列的平均值和标准差
summarise(group_by(test, Species), mean(Sepal.Length), sd(Sepal.Length))
#按照species来分组,计算每组SL的平均数和标准差
dplyr两个实用技能
- 管道操作 %>% (cmd/ctr+shift+m)
test %>%
group_by(Species)%>%
summarise(mean(Sepal.Length), sd(Sepal.Length)) - count统计某列的unique值
count(test,Species)
dplyr处理关系数据
- 内连 inner_join 取交集
- 左连 left_join(test1,test2,by='x')
- 全连 full_join(test1,test2,by='x')
- 半连接 semi_join(x=test1, y=test2, by='x') 返回能够与y匹配的x
- 反连接 anti_join(x=test1, y=test2, by='x') 返回不能与y匹配的x
- 简单合并 bind_row(test1,test2) 合并行,要求列数相同
bind-col(test1,test2) 合并列,要求行数相同