第2章 数据概览
2.2 数据分类
2.2.1 一般的数据分类
- 定量数据(Quantitative Data):一般指的是数值型数据
- 连续型数据(Continuous Data)
- 身高是连续性数据
- 离散型数据(Discrete Data)
- 年龄一般认为是离散型数据
- 在数据区间极大的情况下,连续和离散数据就没有区别的必要了。
- 连续型数据(Continuous Data)
- 定性数据(Qualitative Data)
- 定类数据
- 定序数据
- 定距数据
- 定比数据
- 四种定性数据的可进行的运算如下:
2.2.2 R的数据分类
- 数值型
- 数值型定量数据
- 整数型
- 数值型定量数据
- 逻辑型
- TRUE或FALSE,定性数据。
- 字符型
- 向量中每一个元素都是一个字符或字符串,是定性数据。
- 因子型
- 以数字代码形式表现的字符型数据,定性数据。
2.2.2 用R简单处理数据
- head()
- tail()
- class() 变量类型
- levels() 查看因子型数据的水平值
- is.character() 是否是字符型数值
- is.number() 是否是数值型数据
2.3 数据抽样以及R实现
- 简单随机抽样
>sample(x, n, replace=T)
- 分层抽样
>strata() #分层抽样
>getdata() #获取分层抽样所得的数据集
- 整体抽样
>cluster() #整体抽样
2.4 训练集和测试集
- 训练集(Training Dataset)
- 用于建立模型
- 测试集(Testing Dataset)
- 用于评价模型
第3章 用R获取数据
3.1 R的内置数据集
3.1.1 datasets数据集
在R中,数据集是分属于各个软件包的,比较特殊的是datasets包,它是专用于提供数据集的。
> data(package = "datasets") #查看datasets内的所有数据集
> ?CO2 #查看CO2数据集的帮助文档
3.1.2 包的数据集
除datasets外,其它软件包也含有少量数据。
> data(package = .packages(all.available = TRUE)) #查看本地所有软件包的数据集
3.2 获取其他格式的数据
3.2.1 CSV和TXT格式
3.2.2 从Excel获取数据
3.2.3 从其它软件获得数据
3.3 获取数据库数据
3.4 获取网页数据
使用XML软件包
第4章 探索性数据分析
4.1 数据集
4.2 数字化探索
为什么要探究数据?
了解数据的大致分布、选择合适的模型。
4.2.1 变量概况
常用的函数用来获取数据集基本信息
函数名 | 软件包 | 功能描述 |
---|---|---|
attributes() | base | 给出数据集的属性列表(Attributes List),具体包括变量名($names)、数据集格式($class)、行名($raw.names)三部分,由此得到对数据集的整体把握 |
str | base | 在attributes()基础上查看数据集的内部结构,输出观察样本数、变量数、各变量的类型和取值情况 |
summary() | base | 给出各变量的统计性指标,(对定性变量)各水平的取值频数,(对于定量型数据)最小值、均值等等 |
4.2.2 变量详情
常用的函数用来获取数据集基本信息
函数名 | 软件包 | 功能描述 |
---|---|---|
describe() | Hmisc | 同summary()一样,对于不同类型的变量给出不同类型内容;取值水平小于10个的数值型变量,被默认为离散型变量;还可以给出频数表(对于非二分变量,且取值水平小于20),或者(取值水平超过20)最低最高的5个值。 |
basicStats() | fBasics | 服务于金融工程 |
4.2.3
- 分布:数据集中某变量各水平的取值情况
- 离散变量
- 二项式分布
- 泊松分布
- 几何分布
- 连续数据
- 均匀分布
- 指数分布
- 正态分布
- 离散变量
概念 | 功能描述 |
---|---|
偏度(skewness) | 用于衡量数据的偏倚程度,也就是对称度;以正态分布为基准,即正态分布的偏度为0,完全对称分布;该值的取值区间为[-1, 1],说明数据对称性较强;绝对值大于1,说明有偏倚现象,而且正值右偏、负值左偏。 |
峰度(kurtosis) | 描述数据的陡峭程度(或集中和分散程度);同样是以正态分布为标准(峰度为0);取值大于0,说明是陡峭、尖峰峰度;取值小于0,平缓、平峰峰度。峰度绝对值越大,说明可能存在异常值。 |
4.2.4 稀疏性
稀疏性:对于高维数据而言,数据集中变量个数很多,而只有少部分变量有值。
稀疏矩阵包Matrix
4.2.5 缺失值
软件包mice多用于多重查补技术,md.pattern()用于获取缺失值的情况
4.2.6 相关性
- 相关系数
- 软件包rattle、函数cor()
- 取值 -1~+1之间