数据挖掘课后习题 第3章

3.3

a)步骤1:对数据排序。(已排序)
步骤2:将数据划分到大小为3的等频箱中。
箱1:13,15,16
箱2:16,19,20
箱3:20,21,22
箱4:22,25,25
箱5:25,25,30
箱6:33,33,35
箱7:35,35,35
箱8:36,40,45
箱9:46,52,70
步骤3:计算每个等频箱的算数均值。分别为:44/3,55/3,21,24,80/3,101/3,35,121/3,56。
步骤4:用箱均值光滑。
箱1:44/3,44/3,44/3
箱2:55/3,55/3,55/3
箱3:21,21,21
箱4:24,24,24
箱5: 80/3,80/3,80/3
箱6: 101/3,101/3, 101/3
箱7:35,35,35
箱8:121/3,121/3,121/3
箱9:56,56,56
分箱技术通过可以起到“光滑”数据,去掉噪声的作用,但是由于考察的是邻近的值,因此它进行的是“局部光滑”;另外,分箱也可以作为一种离散化技术。
b)可以通过聚类的方法将相似的值组织成群或簇,而落在簇集合之外的值可视为离群点;也可以通过做盒图的方法确定离群点;作为选择,一种人机结合的检测可被采用,计算机用一种事先决定的数据分布来区分可能的离群点,这些可能的离群点能被人工轻松的检验,而不必检查整个数据集。
c)可以用箱中位数光滑数据(箱中的每一个值都被替换为该箱的中位数),用箱边界光滑数据(箱中的最大和最小值被视为箱边界,而箱中的每一个值都要被替换为最近的边界值),也可以用一个函数拟合数据来光滑数据。

3.6

a)最小-最大规范:0, 0.125, 0.25, 0.5, 1
b)z分数规范化:-0.95,-0.63,-0.32, 0.32, 1.58
c)z分数规范化(使用均值绝对偏差):-1.25, -0.83, -0.42, 0.42, 2.08
d)小数定标规范化(用10000除每个数):0.02, 0.03, 0.04, 0.06, 0.10

3.8

a)age通过z分数规范化后的结果为:-1.77, -1.77, -1.47, -1.47, -0.56, -0.41, 0.04, 0.19, 0.27, 0.42, 0.57, 0.57, 0.72, 0.80, 0.87, 0.87, 1.03, 1.10
%fat通过z分数规范化后的结果为:-2.08, -0.25, -2.27, -1.19, 0.28, -0.31, -0.15, -0.17, 0.26, 0.63, 1.48, 0.002, 0.50, 0.15, 0.58, 0.45, 1.34, 0.75
b)相关系数:0.82 正相关 协方差:100.02

3.9

a)等频划分:(5,10,11,13)(15,35,50,55)(72,92,204,215)
b)等宽划分:第一个箱表示的区间为[0,80):5,10,11,13,15,35,50,55,72
第二个箱表示的区间为[80,160):92
第三个箱表示的区间为[160,240):204,215
c)聚类(kmeans)。第一类:5,10,11,13,15,35 第二类:50,55,72,92 第三类:204,215

3.11

a)



b)SRSWOR:从总体中不放回地随机抽出5个样本
SRSWR:从总体中以放回的方式依次随机抽出5个样本
簇抽样:先采用某种评价方法将总体进行聚类得到s个簇,然后对s个簇进行简单随机抽样。因为需要5个样本,可以在抽到的簇中通过简单随机抽样的方式抽出5个样本。
分层抽样:通过层“young”,“middle_aged”,“senior”包含的样本数确定在每一层随机抽样的样本数,使总抽样数为5。

3.14

数据加载的方法采用数据预处理,这主要使错误数据被标记。在数据加载时进行聚类处理和关联规则处理,把整个数据记录空间进行聚类,将数据分成很多个簇,使相似度聚类阀值尽可能的大,这样就能找到很多孤立的点,这些点就是我们想要标记的错误或者异常数据记录。另外我们在采用关联规则进行数据扫描时,首先生成最小置信度的关联规则表,然后寻找数据记录中不符合规则的数据记录,并将这些孤立的点进行标记,就是我们所要找的错误或异常数据。完成这项工作后我们还希望错误数据或者脏数据不会被插入到数据库中,那我们就要采取数据清洗这个过程,首先识别完原数据记录中的错误或者不一致数据,对其进行移除或者修正,在加载时就进行数据清洗,合并重复数据项,移除不符合规则或错误数据。然后再加载到数据库,相信脏数据会大大减少。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容

  • 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A...
    山的那边是什么_阅读 33,422评论 2 59
  • 删掉重新来一次吧,记得改那个脚本修改 /home/ubuntu/eos/scripts/install_depen...
    卢衍泓阅读 1,110评论 0 1
  • 前言 其实读完斯坦福的这本《互联网大规模数据挖掘》,让我感觉到,什么是人工智能?人工智能就是更高层次的数据挖掘。机...
    我偏笑_NSNirvana阅读 12,505评论 1 23
  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 8,970评论 0 13
  • 好开心[跳跳][跳跳][跳跳]和各位亲汇报一下: 儿子今天脖筋疼,我让儿子八点半就睡觉,儿子说睡不着。经过小范围斗...
    清静心_414e阅读 204评论 0 0