数据挖掘课后习题第3章

3.3

a）步骤1：对数据排序。（已排序）
步骤2：将数据划分到大小为3的等频箱中。
箱1：13，15，16
箱2：16，19，20
箱3：20，21，22
箱4：22，25，25
箱5：25，25，30
箱6：33，33，35
箱7：35，35，35
箱8：36，40，45
箱9：46，52，70
步骤3：计算每个等频箱的算数均值。分别为：44/3,55/3,21,24,80/3,101/3,35,121/3,56。
步骤4：用箱均值光滑。
箱1：44/3，44/3，44/3
箱2：55/3，55/3，55/3
箱3：21，21，21
箱4：24，24，24
箱5： 80/3，80/3，80/3
箱6： 101/3，101/3， 101/3
箱7：35，35，35
箱8：121/3，121/3，121/3
箱9：56，56，56
分箱技术通过可以起到“光滑”数据，去掉噪声的作用，但是由于考察的是邻近的值，因此它进行的是“局部光滑”；另外，分箱也可以作为一种离散化技术。
b）可以通过聚类的方法将相似的值组织成群或簇，而落在簇集合之外的值可视为离群点；也可以通过做盒图的方法确定离群点；作为选择，一种人机结合的检测可被采用，计算机用一种事先决定的数据分布来区分可能的离群点，这些可能的离群点能被人工轻松的检验，而不必检查整个数据集。
c）可以用箱中位数光滑数据（箱中的每一个值都被替换为该箱的中位数），用箱边界光滑数据（箱中的最大和最小值被视为箱边界，而箱中的每一个值都要被替换为最近的边界值），也可以用一个函数拟合数据来光滑数据。

3.6

a）最小-最大规范：0, 0.125, 0.25, 0.5, 1
b）z分数规范化：-0.95，-0.63，-0.32, 0.32, 1.58
c）z分数规范化（使用均值绝对偏差）：-1.25， -0.83， -0.42， 0.42， 2.08
d）小数定标规范化（用10000除每个数）：0.02， 0.03， 0.04， 0.06， 0.10

3.8

a）age通过z分数规范化后的结果为：-1.77, -1.77, -1.47, -1.47, -0.56, -0.41, 0.04, 0.19, 0.27, 0.42, 0.57, 0.57, 0.72, 0.80, 0.87, 0.87, 1.03, 1.10
%fat通过z分数规范化后的结果为：-2.08, -0.25, -2.27, -1.19, 0.28, -0.31, -0.15, -0.17, 0.26, 0.63, 1.48, 0.002, 0.50, 0.15, 0.58, 0.45, 1.34, 0.75
b）相关系数：0.82 正相关协方差：100.02

3.9

a）等频划分：（5,10,11,13）（15,35,50,55）（72,92,204,215）
b）等宽划分：第一个箱表示的区间为[0,80):5,10,11,13,15,35,50,55,72
第二个箱表示的区间为[80,160):92
第三个箱表示的区间为[160,240):204,215
c）聚类（kmeans）。第一类：5,10,11,13,15,35 第二类：50,55,72,92 第三类：204,215

3.11

a）

b）SRSWOR:从总体中不放回地随机抽出5个样本
SRSWR:从总体中以放回的方式依次随机抽出5个样本
簇抽样：先采用某种评价方法将总体进行聚类得到s个簇，然后对s个簇进行简单随机抽样。因为需要5个样本，可以在抽到的簇中通过简单随机抽样的方式抽出5个样本。
分层抽样：通过层“young”，“middle_aged”，“senior”包含的样本数确定在每一层随机抽样的样本数，使总抽样数为5。

3.14

数据加载的方法采用数据预处理，这主要使错误数据被标记。在数据加载时进行聚类处理和关联规则处理，把整个数据记录空间进行聚类，将数据分成很多个簇，使相似度聚类阀值尽可能的大，这样就能找到很多孤立的点，这些点就是我们想要标记的错误或者异常数据记录。另外我们在采用关联规则进行数据扫描时，首先生成最小置信度的关联规则表，然后寻找数据记录中不符合规则的数据记录，并将这些孤立的点进行标记，就是我们所要找的错误或异常数据。完成这项工作后我们还希望错误数据或者脏数据不会被插入到数据库中，那我们就要采取数据清洗这个过程，首先识别完原数据记录中的错误或者不一致数据，对其进行移除或者修正，在加载时就进行数据清洗，合并重复数据项，移除不符合规则或错误数据。然后再加载到数据库，相信脏数据会大大减少。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,590评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,808评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,151评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,779评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,773评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,656评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,022评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,678评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,038评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,756评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,411评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,005评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,973评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,053评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,495评论 2赞 343

数据挖掘课后习题 第3章

3.3

3.6

3.8

3.9

3.11

3.14

推荐阅读更多精彩内容

数据挖掘课后习题第3章