R语言第四章学习——基本数据管理（多图）

数据分析中最重要的并不是如何敲代码，如何收集数据，而是数据分析前的准备——数据导入，数据框架的构建、数据的基础处理、数据分析的问题提出和思考......

4.1一个示例

（创建leadership数据框）

需要解决数据管理方面的问题：

01.比如对“NA”的处理，我们需要一种处理不完整数据的方法。

02.是否需要对经理人的年龄进行重新编组，或者我们希望研究特定时间段的数据结果......等。

以上这些就需要我们对收集到数据进行有效处理，比如数据的组合、排序等。

4.2创建新变量

01.方法：变量名<-表达式

02.目的：定向研究中需要对现有的变量进行变换时。

03.主要使用算术运算符

比如一个mydata的数据框，其中的变量为x1和x2，创建一个新变量sumx存储以上两个变量的和，并创建一个名为meanx的新变量存储这两个变量的均值。

sumx<-x1+x2

meanx<-(x1+x2)/2,以上代码将产生一个错误的结果。

正确的解决方案如下：

transform()函数简化了按需创建新变量并将其保存到数据框中的过程。

4.3变量的重编码

重编码涉及根据同一个变量和/或其他变量的现有值创建新值的过程。使用R中的一个或多个逻辑运算符。逻辑运算符表达式可以返回TRUE或FALSE。

比如，leadership中经理人的age重新编码为类别型变量agecat(Young、Middle、Elder)，如此99的年龄值必须设置为缺失值：leadership$age[leadership$age==99]<-NA

使用以下代码创建agecat变量：(注意使用的是[],而不是（）)使用within()函数的情况如下：（注意语句的书写方式，首先是创建了agecat变量，并将每一行都设置为缺失值，后面的语句依次执行，写成一行会出错。）

4.4变量的重命名

如果对现有的某些变量名称不满意，你可以交互地或者以编程的方式修改它们。

比如你希望将变量名manager修改为managerID，将date修改为testDate，

001.那么可以使用语句：fix(leadership)来调用一个交互式的编辑器。

编辑后运行的结果如下：

002.或者使用names()函数来重命名变量。

003.又或者如下：

004.可以使用plyr包中的rename()函数，可用于修改变量名。使用代码如下：

4.5缺失值

在R中，缺失值以符号NA（NotAvailable，不可用）表示。R中字符型和数值型数据使用相同的缺失值符号。

is.na()函数可用于检测缺失值是否存在。比如：

x<-c(1,2,3,NA)

is.na(x)

将返回c(FALSE,FALSE,FALSE,TRUE)。

判断leadership中的缺失值：

值得注意的是：第一，缺失值是不可比较的，即便是与缺失值自身的比较。第二，R并不把无限的或者不可能出现的数值标记成缺失值。比如正无穷和负无穷分别用Inf和–Inf所标记。

4.5.1重编码某些值为缺失值

leadership示例中，缺失的年龄值被编码为99，即让R明白示例中的99表示缺失值。

leadership$age[leadership$age==99]<-NA，就是通过重编码完成。即任何等于99的年龄值都将被修改为NA。

4.5.2在分析中排除缺失值

001.使用na.rm=TRUE,先排除缺失值在进行分析工作

002.na.omit()函数可以可以删除所有含有缺失数据的行。如下图：

删除所有含有缺失数据的观测（称为行删除，listwisedeletion）是处理不完整数据集的若干手段之一。

4.6日期值

日期值通常以字符串的形式输入到R中，然后转化为以数值形式存储的日期变量。as.Date()函数用于执行这种转化。其语法为as.Date(x,"input_format")，其中x是字符型数据，input_format则给出了用于读入日期的适当格式。

应用如下

001.leadership改变日期格式代码

002.Sys.Date()函数可以返回当天的日期，而date()函数则返回当前的日期和时间。

003.使用函数format(x,format="output_format")来输出指定格式的日期值，并且可以提取日期值中的某些部分：

004.使用difftime()函数计算时间间隔等：（那么我是周几出生的呢？TodayisSunday）

4.6.1将日期转换为字符型变

as.character()函数可将日期值转换为字符型：strDates<-as.character(dates)

4.7类型转换

is.datatype()函数返回TRUE或FALSE，而as.datatype()这样的函数则将其参数转换为对应的类型。

举例如下

4.8数据排序

在R中，可以使用order()函数对一个数据框进行排序。默认的排序顺序是升序。加一个减号即为降序。以下示例使用leadership演示了数据框的排序。

001.语句：

newdata<-leadership[order(leadership$age),]#创建了一个新的数据集，其各行依经理人的年龄升序排序。

002.语句：

attach(leadership)

newdata<-leadership[order(gender,age),]#各行依女性到男性、同样性别中按年龄升序排序

detach(leadership)

003.语句：

attach(leadership)

newdata<-leadership[order(gender,-age),]#将各行依经理人的性别和年龄降序排序

detach(leadership)

4.9数据集的合并

4.9.1向数据框添加列

001.使用merge()函数横向合并两个数据框或数据集。

比如：

total<-merge(dataframeA,dataframeBm,by=”ID”)#将两个数据框按照ID进行了合并

total<-merge(dataframeA,dataframeBm,by=c(”ID”,”Country”)#将两个数据框按照ID和Country进行了合并。

002.用cbind()函数进行横向合并，但必须确保每个对象有相同的行数并以相同的顺序排序。

4.9.2向数据框添加行

使用rbind()函数纵向合并两个数据框或数据集。两个数据框必须拥有相同的变量，但它们的顺序不一定要相同。

比如：total<-rbind(dataframeA,dataframeB)

4.10数据集取子集

学习一些对变量和观测进行保留或删除的若干方法。

001.选入（保留）变量。

比如：newdata<-leadership[,c(6:10)]#从leadership数据框中选择了变量q1、q2、q3、q4和q5，并将它们保存到newdata中。将行下标留空（,）表示默认选择所有行。

语句：

myvars<-c(“item1”,”item2”,”item3”,”item4”,”item5”)

newdata<-leadership[myvars]的作用和上面代码实现的结果一样。

002.剔除（丢弃）变量

003.选入或剔除观测是数据分析和数据准备的一个关键方面。

因为“gender“被屏蔽的缘故，执行结果......（原因还在查询中）。

将leadership数据框研究范围限定在2009年1月1日到2009年12月31日之间。

004.subset()函数，更为简便的方法。

004.随机抽样

使用sample()函数能够从数据集中（有放回或无放回地）抽取大小为n的一个随机样本。

从leadership数据集中随机抽取一个大小为3和2的样本：

4.11使用SQL语句操作数据框

SQL——结构化查询语言。

本章总结：

1.使用算术、逻辑运算符进行创建新变量和变量重编码

2.日期转换和缺失值的处理

3.数据的排序、数据集的合并和取子集

4.选入和丢弃变量

最后编辑于：2017.12.06 01:24:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

R语言第四章学习——基本数据管理（多图）

推荐阅读更多精彩内容