对待R要高冷,拒绝可以拒绝的一切
1.高级的镜像设置
不想每次打开Rstudio都要运行一遍镜像配置,就需要用到R的配置文件.Rprofile
- 首先用file.edit()来编辑文件:
file.edit('~/.Rprofile')
- 然后在其中添加好options代码
# options函数就是设置R运行过程中的一些选项设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
# 当然可以换成其他地区的镜像
- 最后保存然后重启Rstudio
再运行一下:
options()$repos
options()$BioC_mirror
发现已经配置好了,省了手动运行的步骤
2.R包安装
- 第一种:CRAN网站
install.packages(“”)
- 第二种:Bioconductor网站
BiocManager::install(“”)
3.R包加载
- 两者均可
library()
require()
(总结)4.安装加载三部曲:("dplyr")为例
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
5.dplyr五个基础函数
(示例数据:test <- iris[c(1:2,51:52,101:102),])
(1)新增列
mutate(变量,新增列名=新增内容)
(2)筛选列
select(变量,筛选条件)
(3)筛选行
filter(变量,筛选条件)
(4)排序
- 按某1列或某几列对整个表格进行排序
arrange(变量,筛选条件)
(5)汇总
summarise(变量,筛选条件)
-
结合group_by,根据分组再汇总分析
6.dplyr两个实用技能
(1)管道操作
- %>% :向右操作符
把左侧准备的数据或表达式,传递给右侧的函数调用或表达式进行运行,可以连续操作就像一个链条一样
%>%
(cmd/ctr + shift + M)
-所以上述的一串代码可以变成简单的一串
(2)统计某列的unique值:count
count(变量,筛选条件)
7.dplyr处理关系数据
注意:2个表进行连接,不要引入factor
载入数据:
(1)內连,取交集
inner_join
(2)左连
left_join
(3)全连接
full_join
(4)半连接
- 返回能够与y表匹配的x表所有记录
semi_join
(5)反连接
- 返回无法与y表匹配的x表的所记录
anti_join
(6)简单合并
- 相当于base包里的cbind()函数和rbind()函数
-
bind_rows()
需要两个表格列数相同 -
bind_cols()
需要两个数据框有相同的行数
下面进行操作:
先准备数据
再操作:
最后的最后:
今日的思维导图: