3.3
a)步骤1:对数据排序。(已排序)
步骤2:将数据划分到大小为3的等频箱中。
箱1:13,15,16
箱2:16,19,20
箱3:20,21,22
箱4:22,25,25
箱5:25,25,30
箱6:33,33,35
箱7:35,35,35
箱8:36,40,45
箱9:46,52,70
步骤3:计算每个等频箱的算数均值。分别为:44/3,55/3,21,24,80/3,101/3,35,121/3,56。
步骤4:用箱均值光滑。
箱1:44/3,44/3,44/3
箱2:55/3,55/3,55/3
箱3:21,21,21
箱4:24,24,24
箱5: 80/3,80/3,80/3
箱6: 101/3,101/3, 101/3
箱7:35,35,35
箱8:121/3,121/3,121/3
箱9:56,56,56
分箱技术通过可以起到“光滑”数据,去掉噪声的作用,但是由于考察的是邻近的值,因此它进行的是“局部光滑”;另外,分箱也可以作为一种离散化技术。
b)可以通过聚类的方法将相似的值组织成群或簇,而落在簇集合之外的值可视为离群点;也可以通过做盒图的方法确定离群点;作为选择,一种人机结合的检测可被采用,计算机用一种事先决定的数据分布来区分可能的离群点,这些可能的离群点能被人工轻松的检验,而不必检查整个数据集。
c)可以用箱中位数光滑数据(箱中的每一个值都被替换为该箱的中位数),用箱边界光滑数据(箱中的最大和最小值被视为箱边界,而箱中的每一个值都要被替换为最近的边界值),也可以用一个函数拟合数据来光滑数据。
3.6
a)最小-最大规范:0, 0.125, 0.25, 0.5, 1
b)z分数规范化:-0.95,-0.63,-0.32, 0.32, 1.58
c)z分数规范化(使用均值绝对偏差):-1.25, -0.83, -0.42, 0.42, 2.08
d)小数定标规范化(用10000除每个数):0.02, 0.03, 0.04, 0.06, 0.10
3.8
a)age通过z分数规范化后的结果为:-1.77, -1.77, -1.47, -1.47, -0.56, -0.41, 0.04, 0.19, 0.27, 0.42, 0.57, 0.57, 0.72, 0.80, 0.87, 0.87, 1.03, 1.10
%fat通过z分数规范化后的结果为:-2.08, -0.25, -2.27, -1.19, 0.28, -0.31, -0.15, -0.17, 0.26, 0.63, 1.48, 0.002, 0.50, 0.15, 0.58, 0.45, 1.34, 0.75
b)相关系数:0.82 正相关 协方差:100.02
3.9
a)等频划分:(5,10,11,13)(15,35,50,55)(72,92,204,215)
b)等宽划分:第一个箱表示的区间为[0,80):5,10,11,13,15,35,50,55,72
第二个箱表示的区间为[80,160):92
第三个箱表示的区间为[160,240):204,215
c)聚类(kmeans)。第一类:5,10,11,13,15,35 第二类:50,55,72,92 第三类:204,215
3.11
a)
b)SRSWOR:从总体中不放回地随机抽出5个样本
SRSWR:从总体中以放回的方式依次随机抽出5个样本
簇抽样:先采用某种评价方法将总体进行聚类得到s个簇,然后对s个簇进行简单随机抽样。因为需要5个样本,可以在抽到的簇中通过简单随机抽样的方式抽出5个样本。
分层抽样:通过层“young”,“middle_aged”,“senior”包含的样本数确定在每一层随机抽样的样本数,使总抽样数为5。
3.14
数据加载的方法采用数据预处理,这主要使错误数据被标记。在数据加载时进行聚类处理和关联规则处理,把整个数据记录空间进行聚类,将数据分成很多个簇,使相似度聚类阀值尽可能的大,这样就能找到很多孤立的点,这些点就是我们想要标记的错误或者异常数据记录。另外我们在采用关联规则进行数据扫描时,首先生成最小置信度的关联规则表,然后寻找数据记录中不符合规则的数据记录,并将这些孤立的点进行标记,就是我们所要找的错误或异常数据。完成这项工作后我们还希望错误数据或者脏数据不会被插入到数据库中,那我们就要采取数据清洗这个过程,首先识别完原数据记录中的错误或者不一致数据,对其进行移除或者修正,在加载时就进行数据清洗,合并重复数据项,移除不符合规则或错误数据。然后再加载到数据库,相信脏数据会大大减少。