2.1 数据集的概念
数据集通常是用数据构成的一个矩形数组,行表示观测(observation),列表示变量(variable)。
存储数据的结构:包括标量、向量、数组、数据框和列表。
R处理的数据类型包括:数值型、字符型、逻辑性(TRUE/FALSE)、复数型(虚数)和原生型(字节)。
2.2 数据结构
存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。
2.2.1 向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。函数为:c( )
注:标量是只含一个元素的向量。
[ ]:通过给定元素所处位置的数值。
[x:x]:用于生成一个数值序列。
例:
> a <- c("k", "j", "h", "a", "c", "m")> a[3][1] "h"> a[c(1, 3, 5)][1] "k" "h" "c"> a[2:6][1] "j" "h" "a" "c" "m"
2.2.2 矩阵
矩阵:是一个二位数组,每个元素拥有相同的模式。通过函数matrix( )创建。
一般格式:
myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,
byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))
vector包含矩阵的元素。
nrow和ncol指定行和列的维数。
dimnames包含可选的、以字符型向量表示的行名和列名。
byrow表明矩阵应当按行填充(byrow=TRUE),按列填充(byrow=FALSE)。
x[i,]指矩阵X中的第行;x[,j]指第j行,x[i,j]指第i行第j个元素。
2.2.3 数组
数据(array),与矩阵类似,维度可以大于2。
一般格式如下:
myarray <- array(vector, dimensions, dimnames)
vector包含数组中数据。
dimensions数值型向量,给出各个维度下标的最大值。
dimnames是可选的、各维度名称标签的列表。
2.2.4 数据框
使用函数为:data.frame( )
mydata <- data.frame(col1, col2, col3,...)
coll可为任何类型。
$表示选取一个给定数据框中的某个特定变量。
attach( )可将数据框添加到R的搜索路径中。
detach( )将数据框从搜索路径中移除。
with( )赋值仅在此函数的括号内生效。
<<- 特殊赋值符。
row.name实例标识符选项指定不同的个体。
2.2.5 因子
变量归结为:名义型、有序型或连续型变量。
名义型变量:没有顺序之分的类别变量。
有序型变量:表示一种顺序关系。
连续型变量:表示顺序和数量。
类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。factor( ):以整数向量的形式存储类别值。
有序型变量:factor( ),参数ordered=TRUE。
levels=:排序
2.2.6 列表
列表(list)就是一些对象(成分,component)的有序集合。允许整合若干对象到单个对象名下。
格式如下:
mylist <- list(object1, object2, ...)
mylist <- list(name1=object1, name2=object2, ...) 以对象命名
2.3 数据的输入
R可从下面的文件中导入数据。
2.3.1 使用键盘输入数据
两种方式:R内置的文本编辑器、直接在代码嵌入数据。
使用函数edit( )自动调用一个允许手动输入的文本编辑器。
2.3.2 从带分隔符的文本文件导入数据
使用read.table( )函数,格式如下:
mydataframe <- read.table(file, options)
file:带分隔符的ASCII文本文件。
options:控制如何处理数据的选项。
2.3.3 导入Excel数据
格式如下:
read.xlsx(file,n)
file是Excel工作薄的所在路径;
n则为要导入的工作表序号。
2.3.4 导入XML数据
2.3.5 从网友抓取数据
文字可以使用函数readLines( ),然后使用如grep( )和gsub( )函数来处理。
更多信息和示例,参考网站:Rrogramming with R(R Programming Language | ProgrammingR)
2.3.6 导入SPSS数据
通过foreign包中的函数read.spss( )导入或者
Hmisc包中的spss.get( )函数。
2.3.7 导入SAS数据
2.4数据集的标注
2.4.1变量标签:将变量标签作为变量名,然后通过位置下标来访问这个变量。
2.4.2 值标签:函数factor( )可为类别变量创建值标签。
2017年03月10日
作者:壹亮3278(微信号:yiliang3278),移动互联网产品设计、产品经理,数据分析的学习者。不断自我迭代,自我升级,希望和知识爱好者共同进步,让我们用成长去遇见美好的未来!!!
————“自律是成功的基石。”————
《数据分析学习之路系列》系列
大数据之数据分析精进之路:起跑
00-R语言的认识、下载和安装
01-R语言入门