R包的学习
R包的安装与加载
1.镜像设置-教程
- 高级模式:R的配置文件
.Rprofile
2.安装
- 存在于CRAN网站的包安装命令
install.packages(“包”)
。 - 存在于Bioconductor网站的包安装命令
BiocManager::install(“包”)
。
3.加载
-
library(某个包)
,require(包)
,这两个命令均可。
so 安装加载流程:
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
dplyr包的用法
5个基础函数
-
mutate()
--新增列。
括号里面去定义新增哪个数据框里面的内容,后用逗号隔开,定义该新函数应该是以何种运算来出现。如:mutate(test,new=ab),那么新的一列就是以ab来计算得到的。 -
select()
--按列筛选。
- 按列号筛选:select(test,1)-选择test表的第一列,select(test,c(1,5))-选择test表的第1列和第5列。
- 按列名筛选:select(test, Petal.Length, Petal.Width)-选择test表表头为Petal.Length和Petal.Width的那列。
-
filter()
--筛选行 -
arrange()
--按某1列或某几列对整个表格进行排序。
- arrange(test, 第一列名称)是以默认的方式从小到大的顺序排列
- arrange(test, desc(a))test表格中以a列为排列标准,从大到小的排列
5.`summarise():汇总(与group_by联合使用更香哦)
group_by(test, Species) # 先按照Species分组,计算每组Sepal.Length的平均值和标准差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
实用技能
- 管道操作 %>%(cmd/ctr + shift + M):加载任意一个tidyverse包均可使用。
- count统计某列的unique值:count(数据集,列名)。
处理关系数据(将两个表进行连接)
- 取交集:
inner_join(test1, test2, by = "x")
- 左连:
left_join(test1, test2, by = 'x')
- 全连
full_join( test1, test2, by = 'x')
- 半连接
semi_join(x = test1, y = test2, by = 'x')
- 反连接
anti_join(x = test2, y = test1, by = 'x')
-
bind_rows()
函数是两个表格列数相同相连接,而bind_cols()
函数则是两个数据框有相同的行数