设置镜像
为了加快R包的下载速度,一般都会设置几个国内镜像。
-
程序中设置镜像
- 自定义下载镜像
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) # 清华镜像
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #中科大镜像
options()$BioC_mirror # 查询镜像是否是自己设置的国内的镜像
缺点:每次打开R都要运行一遍镜像设置
- 利用R配置文件.Rprofile一劳永逸
Rstudio最重要的两个配置文件1) .Renviron它是为了设置R的环境变量。2) .Rprofile,它是一个代码文件,当R启动时,如果找到了这个文件,那么R就会替我们先运行一遍(这个过程是在Rstudio启动时完成的)。
-
首先用
file.edit()
来编辑文件
在文件内粘贴这两个options代码,CTRL + S保存文件
-
重启软件后再检查一遍镜像地址
这样就配置好了。
安装R包
install.packages("ggplot2")#安装存在于CRAN的包
BiocManager::install("ggplot2")#安装存在于Biocductor的包
加载R包
R包只有被加载后才能使用
library(ggplot2)
require(ggplot2)
这两个命令都可以
注:下载R包是要用引号包住,加载时不需要
dplyr五个基础函数
建立数据集
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
test <- iris[c(1:2,51:52,101:102),] #取1.2.51.52.101.102行
mutate(),新增列
因为没有为test赋值,因此新增列只显示在控制台。
也可以直接利用$符号在test加入一列
select(),按列筛选
filter()筛选行
arrange(),按某一列或某几列对整个表格进行排序
summarise() 汇总
对数据进行汇总操作,group_by()对数据进行分组操作。
group_by()对数据进行分组
summarise() 与 group_by()连用
管道操作 %>% (ctr + shift + m)
factor不能作为对象传给其它函数
count统计某列的unique的值
利用count()统计某列里面不同的类别各有多少个值
dplyr处理关系数据
即将两个表进行连接,注意不要引入factor
两个向量长度需要一致
内连inner_join,取交集
按某个要素取交集时,与相交元素对应位置的元素被取出跟相交元素的顺序没关系。
左连left_jioin
以左边的数据为标准一次寻找,取交集,left_join(test1,test2, by = 'x')#以test1的X为准取交集
left_join(test2,test2, by = 'x')#以test2的X为准取交集
全连full_join
半连接semi_join(x= ,y= ,by = " ")
返回能够与y表相匹配的x表的所有记录
反连接
返回无法与y表匹配的X表的所有记录
简单合并
相当于base包里的cbind()按列合并和rbind()按行合并。bind_rows()函数需要两个表列数相同。bind_cols()函数则需要两个数据框有相同的行数。
按行合并
按列合并