1. 配置Rstudio的下载镜像
1. 配置镜像的原因
为了加速包的下载,需要配置国内镜像。
2. 配置镜像的方法(https://m.umu.cn/course/?groupId=5667230&sKey=c8e86a5561351147a4c538fd19cd623d)
1)通过工具栏配置
一般都是在Rstudio的tools工具栏中,对Packages中的primary CRAN repository进行设置,但这个镜像在下载Bioconductor的包时没有办法使用,同时也不能保证Rstudio每次都从CRAN下载包。
2)通过Rstudio的代码直接配置
对于CRAN和Bioconductor的下载镜像,可以用Rstudio直接配置
选择用Rstudio的配置文件.Rprofile,先用file.edit('~/.Rprofile')编辑文件,再将以下代码分别输入至脚本编辑器界面并保存。
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirros="https://mirrors.ustc.edu.cn/bioc/")
重启Rstudio之后运行options()BioC_mirror检测镜像是否配置成功,结果发现CRAN的镜像配置成功,但Bioconductor的运行结果是Null,因此,改变Bioconductor的镜像网站,运行没有问题。所有的镜像和运行结果如下所示:
2. R的包
R包安装: install.packages("包")
BiocManager::install("包")
R包加载:library(包)
require(包)
3.dplyr包的应用
1. dplyr的安装和加载
R包dplyr可用于处理R内部或者外部的结构化数据。
2. dplyr的应用
1. mutate(),新增列
首先对变量test进行赋值
用mutate()函数新增列
2. select(),按列筛选
按列号筛选
按列名筛选
3. filter(),按行筛选
4.arrange()按某一列或某几列对表格进行排序
5.summarize()汇总
6. 管道操作 %>% (cmd/ctr + shift + M)
管道函数的作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。符号%>%即管道操作,意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置)。
7. count()统计某列的unique值
8. 处理关系数据
1)将两个表进行连接
a) stringsAsFactors = F意味着“在读入数据时,遇到字符串之后,不将其转换为factors,仍然保留为字符串格式”。
b)连接的两个表必须具有相同的行数
2)连接
inner_join(test1,test2,by="x")内连test1和test2,取交集
left_join(test1,test2,by="x"),左连
right_join(test1,test2,by="x"),右连
full_join(test1,test2,by="x"),全连
semi_join(x=test1,y=test2,by="x"),半连
anti_join(x=test1,y=test2,by="x"),反连
3)合并
通过bind_rows和bind_col合并不同的变量
心得:跟着教程是没有什么问题的,但自己处理数据还是不知道怎么做~~~