R有很广泛的数据类型,包括scalars,vectors,matrices,data frames, and lists。(以下根据quick-R进行整理,例子为自己举例)
1.vectors
最简单的是向量类型,即使用c()
的形式表明。
1.1数字向量
a <- c(5,3,6,8,1)
a[c(2,4)] # [1] 3 8 a已经是一个向量了,后面再加表明取这个向量的第2个和第4个值
1.2字符向量
b <- c("hello","bye","love") # [1] "hello" "bye" "love"
b <- c("hello,bye,love") # "hello,bye,love"
注意:如果变量中有数字有字符,则为字符向量
1.3逻辑向量
c <- c(TRUE,FALSE,FALSE,TRUE,TRUE) #[1] TRUE FALSE FALSE TRUE TRUE
2.Matrices
2.1用法
矩阵中的所有列必须具有相同的模式(数字、字符等)和相同的长度。一般格式为
matrix(data, nrow, ncol, byrow, dimnames)
- 数据是成为矩阵的数据元素的输入向量。
- nrow是要创建的行数。
- ncol是要创建的列数。
- byrow是一个逻辑线索。 如果为TRUE,则输入向量元素按行排列。
- dimname是分配给行和列的名称。
mymatrix <- matrix(vector, nrow=r, ncol=c, byrow=FALSE,
dimnames=list(char_vector_rownames, char_vector_colnames))
byrow=TRUE
indicates that the matrix should be filled by rows. (向量按照行进行填充)byrow=FALSE
indicates that the matrix should be filled by columns (the default)(向量按照列进行填充). dimnames
provides optional labels for the columns and rows(行和列的向量名字).
eg1:
generates 2 x 3 numeric matrix
y <- matrix(1:6, nrow=2,ncol=3) #默认byrow=FALSE
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
eg2:
班里8个人ming,hong,fang,shuai,lee,yu,ma,mi按照行的顺序进行排座位,分4行两列,行名为1,2,3,4,列名为A,B
name <- c("ming","hong","fang","shuai","lee","yu","ma","mi")
cnames <- c("A","B")
rnames <- c(1,2,3,4)
zuowei <- matrix(name, nrow = 4, ncol = 2, byrow = TRUE,
dimnames = list(rnames, cnames))
zuowei
结果为
A B
1 "ming" "hong"
2 "fang" "shuai"
3 "lee" "yu"
4 "ma" "mi"
2.2访问元素
zuowei[c(2)] #"fang" 代表啥意思呢
zuowei[2,] # "fang" "shuai" 矩阵第二行
zuowei[,2] #"hong" "shuai" "yu" "mi" 矩阵第二列
zuowei[2:3,1:2] #第2行到第三行的第一列到第二列
3 Arrays
数组类似于矩阵,但可以有两个以上的维。
help(array)
4 Data Frames (基本单元为列?)
比矩阵更通用,因为不同的列可以有不同的模式(numeric, character, factor, etc.)。这类似于SAS和SPSS数据集。
4.1用法
eg:制作一份成绩单
班里8个人ming,hong,fang,shuai,lee,yu,ma,mi,按照名字顺序依次排列,成绩分别为66,89,30,47,29,95,70,59,列名为numer,name,score
number <- c(1:8)
name <- c("ming","hong","fang","shuai","lee","yu","ma","mi")
score <- c(66,89,30,47,29,95,70,59)
report_card <- data.frame (number,name,score) #这里的numer,name,score都为向量
#输出结果的第一行就为这三个名字
#如果上面的向量名为xyz,需要改行名,则可用以下代码
names(report_card) <- c("number","name","score") #行名
report_card #查看输出结果
输出结果为
number name score
1 1 ming 66
2 2 hong 89
3 3 fang 30
4 4 shuai 47
5 5 lee 29
6 6 yu 95
7 7 ma 70
8 8 mi 59
4.2访问元素
report_card[2:3] #第2-3列
report_card[c("name","score")] #name和score列
report_card$name #name变量
5 Lists
objects (components)的有序集合。Lists允许我们以一个名称收集各种(可能不相关的) objects 。创建列表用list
函数,并且其中可以包含几乎任何数据类型,可以给list中的每个元素命名
。
5.1用法
w <- list(c("Wang","san"), c(4,5,6),matrix(c(5,3,4,6,7,8), nrow=3), age=5.3)
#a string, a numeric vector, a matrix, and a scaler
names(w) <-c("wo","hen","kuai","le") #Give names to the elements in the list“w”
v <- c(list1,list2) #包含两个列表
5.2访问元素
可以用序号,也可以用名称
mylist[[2]] # 2nd component of the list w[[2]]
mylist[2] #输入第二项带name
mylist[["mynumbers"]] # component named mynumbers in list w[["mynumbers"]]
6 Factors (为什么要转变为因子呢?)
在R语言中,名义变量和有序变量可以使用因子
来表示。
6.1用法
f <- factor(x=charactor(), levels, labels=levels, exclude = NA, ordered = is.ordered(x), namax = NA)
- x为输入值
- levels为值的顺序,默认是x中不重复的值
- labels为对应levels的重命名,默认取levels的值
- exclude:从x中剔除的水平值,默认为NA值;
- ordered:逻辑值,因子水平是否有顺序(编码次序),若有取TRUE,否则取FALSE;
- nmax:水平个数的限制。
7常用功能
length(object) # number of elements or components
str(object) # structure of an object
class(object) # class or type of an object
names(object) # names
c(object,object,...) # combine objects into a vector
cbind(object, object, ...) # combine objects as columns
rbind(object, object, ...) # combine objects as rows
object # prints the object
ls() # list current objects
rm(object) # delete an object
newobject <- edit(object) # edit copy and save as newobject
fix(object) # edit in place