今天学习内容是R语言的数据结构,学习资料主要来源:微信公众号生信星球
关于R语言代码的编写:
(1)R的赋值符号不是等号,而是<-
(2)在Console 控制台输入命令,相当于Linux的命令行
(3)R的代码都是带括号的,括号必须是英文的。
(4)显示工作路径 getwd()
(5)向量是由元素组成的,元素可以是数字或者字符串。
(6)表格在R语言中改名叫数据框
(7)可用这个命令查看帮助:?read.table,调出对应的帮助文档,翻到example部分研究一下。
(8)R代码是严格区分大小写的。
(9)R的数据类型有:向量(vector),矩阵(matrix),数组(array),数据框(data frame),列表(list)
一、向量
1. 标量和向量的区分
标量:一个元素组成的变量
向量:多个元素组成的变量,并且是一排有序排列的元素。
x<-1:5 #给x赋值1到5的整数
x<-seq(5,1,by=0.5) #5到1之间每隔0.5取一个数
x<-rep(1:3,times=c(1,2,3)) #对1,2,3重复,1重复1次,2重复2次,3重复3次
注:给同一个变量多次赋值会覆盖。
2. 从向量中提取元素
- 根据值
x[1:4] #第1到4个元素
x[-(1:4)] #除了第1-4个元素
x[c(1,5)] #第1个和第5个元素
- 根据位置
x[x==5] #等于5的元素
x[x<5] #提取值小于5的元素
x[x %in% c(1,2,5)] #取两个向量的交集
二、数据框
1. 读取本地数据
可用read.table()
和read.csv()
两个函数。两者的区别是:
验证了一下:我们发现不管是逗号格式还是空格格式,都可以成为read.table()和read.csv()的数据源,那么区别就在于列数不对等这个需求了,对于read.table()严格要求所有列都对等,而read.csv()并不要求,后者会按最大列,或指定的列数填充,空串可指定相应的字符或数字填充。
From:[R数据导入导出(一): read.table()和read.csv()的区别]
(https://www.cnblogs.com/ElfoDigger/p/10102120.html)
2. 设置行名和列名
colnames(X) #查看列名
rownames(X) #查看行名
colnames(X)[1]<-"col1" #修改某列名称
read.csv(file = "....",sep = ",",row.names=1) #row.names=1指修改第一列为行名
3. 数据框的导出
write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ",
eol = "\n", na = "NA", dec = ".", row.names = TRUE,
col.names = TRUE, qmethod = c("escape", "double"),
fileEncoding = "")
row.names:是否导出行序号,默认为TRUE,也就是导出行序号
col.names:是否导出列名,默认为TRUE,也就是导出列名
quote:字符串是否使用引号表示,默认为TRUE,也就是使用引号表示
4. 变量的保存与重新加载
save.image(file=" .RData") #保存当前所有变量
save(X,file="test.RData") #保存其中一个变量到某个RData文件
load(" .RData") #再次使用RData时的加载命令
5. 提取元素
X[x,y] #第x行第y列
X[x,] #第x行
X[,y] ,X[y] #第y列
X[a:b] #第a列到第b列
X[c(a,b)] #第a列和第b列
X$列名 #提取某列,只能提取一列
6. 直接使用数据框中的变量
用iris数据框的两列做个散点图,写道脚本窗口,然后存到一个新的脚本里面:Q:save(X,file="test.RData")这句代码如果报错object X not found,是为什么,应该怎么解决?
A:报错说的是X变量找不到,对象找不到说明没有被定义/赋值,通常是忘了定义或者赋值时代码写错了。
在这个例子里,可能是用read.csv()或read.table()函数打开的txt文件的时候,只是写了read.csv(file = "huahua.txt")
而没有把这个结果赋值给X。解决办法是X<-read.csv(file = "huahua.txt")
。