1. 配置Rstudio的下载镜像
1.配置镜像的原因
为了加速下载R包
2.镜像配置的方法:https://mp.weixin.qq.com/s/XvKb5FjAGM6gYsxTw3tcWw
1.初级模式:在工具栏里设置:Rstudio 的tools-package-primary CRAN repository 弊端:是CRAN的镜像,如果要下载Bioconductor的包,这个镜像是没有办法用的;另外即使设置了这里,Rstudio也不是每次都能真的 CRAN去下载包,很多时候还是无奈地回到了R的国外官网,速度超慢
- Rstudio 代码设置
- 运用 R的配置文件 .Rprofile
-运用 file.edit('~/.Rprofile')编辑文件
- 添加 代码 options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))和options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
- 最后保存=》重启Rstudio, 然后运用options()BioC_mirros检验镜像配置是否成功。结果发现CRAN 设置成功,而Bioc仍是原始镜像。
2 R包
1 安装与加载
install.packages(“包”)
BiocManager::install(“包”)
library(包)
require(包)
*一定要下载较新的版本的 R,由于我刚开始下载的R为3.1.0,所以导致老出现dplyr安装错误
3 dplyr五个基础函数
1. mutate(),新增列
2.select(),按列筛选
上图的意思是先把vars赋予Petal.Length", "Petal.Width“两列数的含义,然后再筛选出vars
如果把qq赋值Sepal.Length,结果就是下图
3.filter()筛选行
4.arrange(),按某1列或某几列对整个表格进行排序
5.summarise():汇总
dplyr两个实用技能
1:管道操作 %>% (cmd/ctr + shift + M)
(加载任意一个tidyverse包即可用管道符号)
2:count统计某列的unique值
dplyr处理关系数据
1.內连inner_join,取交集
2.左连left_join
3. 全连full_join
4.半连接:返回能够与y表匹配的x表所有记录semi_join
5.反连接:返回无法与y表匹配的x表的所记录anti_join
6.简单合并
在相当于base包里的cbind()函数和rbind()函数; 注意: bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数。