数据分析(三):《数据挖掘R语言实战》

第2章 数据概览

2.2 数据分类

2.2.1 一般的数据分类
  • 定量数据(Quantitative Data):一般指的是数值型数据
    • 连续型数据(Continuous Data)
      • 身高是连续性数据
    • 离散型数据(Discrete Data)
      • 年龄一般认为是离散型数据
    • 在数据区间极大的情况下,连续和离散数据就没有区别的必要了。
  • 定性数据(Qualitative Data)
    • 定类数据
    • 定序数据
    • 定距数据
    • 定比数据
    • 四种定性数据的可进行的运算如下:
四种定性数据的可进行的运算
2.2.2 R的数据分类
  • 数值型
    • 数值型定量数据
  • 整数型
    • 数值型定量数据
  • 逻辑型
    • TRUE或FALSE,定性数据。
  • 字符型
    • 向量中每一个元素都是一个字符或字符串,是定性数据。
  • 因子型
    • 以数字代码形式表现的字符型数据,定性数据。
因子型数据
2.2.2 用R简单处理数据
  • head()
  • tail()
  • class() 变量类型
  • levels() 查看因子型数据的水平值
  • is.character() 是否是字符型数值
  • is.number() 是否是数值型数据

2.3 数据抽样以及R实现

  • 简单随机抽样
>sample(x, n, replace=T)
  • 分层抽样
>strata()      #分层抽样
>getdata()     #获取分层抽样所得的数据集
分层抽样的函数strata()
  • 整体抽样
>cluster()      #整体抽样
整体抽样函数cluster()

2.4 训练集和测试集

  • 训练集(Training Dataset)
    • 用于建立模型
  • 测试集(Testing Dataset)
    • 用于评价模型
模型训练和模型评价过程

第3章 用R获取数据

3.1 R的内置数据集

3.1.1 datasets数据集

在R中,数据集是分属于各个软件包的,比较特殊的是datasets包,它是专用于提供数据集的。

> data(package = "datasets")      #查看datasets内的所有数据集
> ?CO2    #查看CO2数据集的帮助文档
3.1.2 包的数据集

除datasets外,其它软件包也含有少量数据。

> data(package = .packages(all.available = TRUE))    #查看本地所有软件包的数据集

3.2 获取其他格式的数据

3.2.1 CSV和TXT格式
3.2.2 从Excel获取数据
3.2.3 从其它软件获得数据

3.3 获取数据库数据

3.4 获取网页数据

使用XML软件包

第4章 探索性数据分析

4.1 数据集

4.2 数字化探索

为什么要探究数据?
了解数据的大致分布、选择合适的模型。

4.2.1 变量概况

常用的函数用来获取数据集基本信息

函数名 软件包 功能描述
attributes() base 给出数据集的属性列表(Attributes List),具体包括变量名($names)、数据集格式($class)、行名($raw.names)三部分,由此得到对数据集的整体把握
str base 在attributes()基础上查看数据集的内部结构,输出观察样本数、变量数、各变量的类型和取值情况
summary() base 给出各变量的统计性指标,(对定性变量)各水平的取值频数,(对于定量型数据)最小值、均值等等
4.2.2 变量详情

常用的函数用来获取数据集基本信息

函数名 软件包 功能描述
describe() Hmisc 同summary()一样,对于不同类型的变量给出不同类型内容;取值水平小于10个的数值型变量,被默认为离散型变量;还可以给出频数表(对于非二分变量,且取值水平小于20),或者(取值水平超过20)最低最高的5个值。
basicStats() fBasics 服务于金融工程
4.2.3
  • 分布:数据集中某变量各水平的取值情况
    • 离散变量
      • 二项式分布
      • 泊松分布
      • 几何分布
    • 连续数据
      • 均匀分布
      • 指数分布
      • 正态分布
概念 功能描述
偏度(skewness) 用于衡量数据的偏倚程度,也就是对称度;以正态分布为基准,即正态分布的偏度为0,完全对称分布;该值的取值区间为[-1, 1],说明数据对称性较强;绝对值大于1,说明有偏倚现象,而且正值右偏、负值左偏。
峰度(kurtosis) 描述数据的陡峭程度(或集中和分散程度);同样是以正态分布为标准(峰度为0);取值大于0,说明是陡峭、尖峰峰度;取值小于0,平缓、平峰峰度。峰度绝对值越大,说明可能存在异常值。
4.2.4 稀疏性

稀疏性:对于高维数据而言,数据集中变量个数很多,而只有少部分变量有值。

稀疏矩阵包Matrix

4.2.5 缺失值

软件包mice多用于多重查补技术,md.pattern()用于获取缺失值的情况

4.2.6 相关性
  • 相关系数
    • 软件包rattle、函数cor()
    • 取值 -1~+1之间

4.3 可视化探索

4.3.1 直方图

4.3.2 累积分布图

4.3.3 箱线图

4.3.4 条形图

4.3.5 点阵图

4.3.6 饼图

第5章 数据预处理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容