R语言实战—02-创建数据集

2.1 数据集的概念

数据集通常是用数据构成的一个矩形数组,行表示观测(observation),列表示变量(variable)。
存储数据的结构:包括标量、向量、数组、数据框和列表。
R处理的数据类型包括:数值型、字符型、逻辑性(TRUE/FALSE)、复数型(虚数)和原生型(字节)。

2.2 数据结构

存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。

2.2.1 向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。函数为:c( )
注:标量是只含一个元素的向量。
[ ]:通过给定元素所处位置的数值。
[x:x]:用于生成一个数值序列。

例:
> a <- c("k", "j", "h", "a", "c", "m")> a[3][1] "h"> a[c(1, 3, 5)][1] "k" "h" "c"> a[2:6][1] "j" "h" "a" "c" "m"

2.2.2 矩阵
矩阵:是一个二位数组,每个元素拥有相同的模式。通过函数matrix( )创建。

一般格式:
myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,
byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))

vector包含矩阵的元素。
nrow和ncol指定行和列的维数。
dimnames包含可选的、以字符型向量表示的行名和列名。
byrow表明矩阵应当按行填充(byrow=TRUE),按列填充(byrow=FALSE)。
x[i,]指矩阵X中的第行;x[,j]指第j行,x[i,j]指第i行第j个元素。

2.2.3 数组
数据(array),与矩阵类似,维度可以大于2。

一般格式如下:
myarray <- array(vector, dimensions, dimnames)

vector包含数组中数据。
dimensions数值型向量,给出各个维度下标的最大值。
dimnames是可选的、各维度名称标签的列表。

2.2.4 数据框

使用函数为:data.frame( )
mydata <- data.frame(col1, col2, col3,...)

coll可为任何类型。
$表示选取一个给定数据框中的某个特定变量。
attach( )可将数据框添加到R的搜索路径中。
detach( )将数据框从搜索路径中移除。
with( )赋值仅在此函数的括号内生效。
<<- 特殊赋值符。
row.name实例标识符选项指定不同的个体。

2.2.5 因子
变量归结为:名义型、有序型或连续型变量。
名义型变量:没有顺序之分的类别变量。
有序型变量:表示一种顺序关系。
连续型变量:表示顺序和数量。
类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。factor( ):以整数向量的形式存储类别值。
有序型变量:factor( ),参数ordered=TRUE。
levels=:排序 

2.2.6 列表
列表(list)就是一些对象(成分,component)的有序集合。允许整合若干对象到单个对象名下。

格式如下:
mylist <- list(object1, object2, ...)
mylist <- list(name1=object1, name2=object2, ...) 以对象命名

2.3 数据的输入

R可从下面的文件中导入数据。

2.3.1 使用键盘输入数据
两种方式:R内置的文本编辑器、直接在代码嵌入数据。
使用函数edit( )自动调用一个允许手动输入的文本编辑器。

2.3.2 从带分隔符的文本文件导入数据

使用read.table( )函数,格式如下:
mydataframe <- read.table(file, options)

file:带分隔符的ASCII文本文件。
options:控制如何处理数据的选项。

2.3.3 导入Excel数据

格式如下:
read.xlsx(file,n)

file是Excel工作薄的所在路径;
n则为要导入的工作表序号。

2.3.4 导入XML数据

2.3.5 从网友抓取数据
文字可以使用函数readLines( ),然后使用如grep( )和gsub( )函数来处理。
更多信息和示例,参考网站:Rrogramming with R(R Programming Language | ProgrammingR)

2.3.6 导入SPSS数据
通过foreign包中的函数read.spss( )导入或者
Hmisc包中的spss.get( )函数。

2.3.7 导入SAS数据

2.4数据集的标注

2.4.1变量标签:将变量标签作为变量名,然后通过位置下标来访问这个变量。
2.4.2 值标签:函数factor( )可为类别变量创建值标签。

2017年03月10日

作者:壹亮3278(微信号:yiliang3278),移动互联网产品设计、产品经理,数据分析的学习者。不断自我迭代,自我升级,希望和知识爱好者共同进步,让我们用成长去遇见美好的未来!!!

————“自律是成功的基石。”————


《数据分析学习之路系列》系列
大数据之数据分析精进之路:起跑
00-R语言的认识、下载和安装
01-R语言入门

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容