R包学习
R包的安装和加载
1.设置下载地址的镜像网站
options函数就是设置R运行过程中的一些选项设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源;当然可以换成其他地区的镜像
一劳永逸的R下载镜像网站的设置
详见生信星球微信公众号:https://mp.weixin.qq.com/s/XvKb5FjAGM6gYsxTw3tcWw
2.安装R包
CRAN网站中R包的安装
install.packages(“names”)
Biocductor网站中R包的安装
BiocManager::install(“names”)
3.加载R包
library(package)
require(package)
dplyr包的学习
五个基础函数
library(dplyr) #dplyr加载
test <- iris[c(1:2,51:52,101:102),]
###mutate:新增一列###
mutate(test,new=Sepal.Length * Sepal.Width)#新增一列,数据由Sepal.Length和Sepal.Width相乘得到
###select:按列筛选###
select(test,1) #筛选第一列
select(test,c(1,5)) #筛选第一列和第五列
select(test,Sepal.Length) #筛选名为Sepal.Length的列
select(test, Petal.Length, Petal.Width) #筛选名为Sepal.Length和 Petal.Width的列
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))#选择字符向量中的列,select中不能直接使用字符向量筛选,需要使用one_of函数
###filter:按行筛选###
filter(test, Species == "setosa") #筛选Species列中为setosa的行
filter(test, Species == "setosa"&Sepal.Length > 5 ) #筛选Species列中为setosa的行,且该行中Sepal.Length > 5
filter(test, Species %in% c("setosa","versicolor")) #筛选Species列中为setosa和versicolor的行
###arrange:排序###
arrange(test, Sepal.Length) #将Sepal.Length这一列按从小到大排序
arrange(test, desc(Sepal.Length)) #将Sepal.Length这一列按从大到小排序
###summarise:汇总###
summarise(test, mean(Sepal.Length), sd(Sepal.Length)) # 计算Sepal.Length的平均值和标准差
group_by(test, Species) #先按照Species分组
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)) #计算按照Species分组后,每组Sepal.Length的平均值和标准差。
两个实用技能
###管道符号:快捷键 (cmd/ctr + shift + M)###
test %>% group_by(Species) %>% summarise(mean(Sepal.Length), sd(Sepal.Length)) #将test数据框中的数据按照Species分组后计算每组Sepal.Length的平均值和标准差
###count:统计某列的unique值###
count(test,Species) #统计test中Species这一列的非重复值;相当于函数table。
多个数据框的处理
test1 <- data.frame(x = c('b','e','f','x'),
z = c("A","B","C",'D')) #创建一个名为test1的数据框,包含x,z两列。
test2 <- data.frame(x = c('a','b','c','d','e','f'),
y = c(1,2,3,4,5,6)) #创建一个名为test2的数据框,包含x,y两列。
###內连inner_join,取交集###
inner_join(test1, test2, by = "x") #将test1和test2数据集中按x列中共有元素合并为一个新的数据集。
###左连left_join###
left_join(test1, test2, by = 'x') #将test1和test2数据集中按test1中x列的元素合并,保留test1中x列的全部元素。
left_join(test2, test1, by = 'x') #将test1和test2数据集中按test2中x列的元素合并,保留test2中x列的全部元素。
###全连full_join###
full_join( test1, test2, by = 'x') #将test1和test2数据集中x列的元素合并,保留test1和test2中x列的全部元素。
###半连接:返回能够与y表匹配的x表所有记录semi_join###
semi_join(x = test1, y = test2, by = 'x') #保留test1中x列与test2中x列相匹配的所有元素
###反连接:返回无法与y表匹配的x表的所记录anti_join###
anti_join(x = test2, y = test1, by = 'x') #丢弃test2中x列与test1中x列相匹配的所有元素
###简单合并###
test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40)) #创建一个名为test1的数据框,包含x,y两列
test2 <- data.frame(x = c(5,6), y = c(50,60)) #创建一个名为test2的数据框,包含x,y两列
test3 <- data.frame(z = c(100,200,300,400)) #创建一个名为test3的数据框,包含z一列
bind_rows(test1, test2) #按行合并test1和test2,要求列数相同
bind_cols(test1, test3) #按列合并test1和test2,要求行数相同