数据挖掘-引论

一、什么是数据挖掘

 数据挖掘指的是从大量数据中挖掘有趣的模式或知识的过程:简称数据中的知识发现(KDD),有如下的迭代序列组成:

(1)数据清理(清除噪声和删除不一致的数据)

(2)数据集成(将多种数据源组合在一起)

(3)数据选择和变换(选择与分析任务的数据,通过汇总或聚集操作,把数据变换成适合挖掘的形式)

(4)数据挖掘(使用机器学习方法提取数据模式)

(5)模式评估和知识展现(根据某种兴趣度来度量,识别代表知识的真正有趣的模式,把模式可视化)

二、可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。包括特征化和区分,频繁模式、关联和相关性分析,分类与回归,聚类分析,离群点分析。

2.1 类/概念描述:特征化与区分

        数据可以与类或概念相关联,比如:销售数码商品的类别包括有笔记本和平板,顾客概念有大客户和小客户,用汇总、简洁、精确的描述每个类和概念是有用的。这种描述方法可以通过下述方式得到:

(1)数据特征化,一般地汇总目标类的数据,比如汇总在天猫一年内花费1W以上的顾客的特征;数据特征化的输出可以多种形式提供,例如饼图,条土,曲线,多维数据立方体等。

(2)数据区分,将目标类和多个目标类进行比较,比如2015年销售增加10%的数码产品与同一时期销售下降30%的数码产品进行比较。

2.2 挖掘频繁模式、关联和相关性

1、频繁模式是在数据中频繁出现的模式:包括频繁项集频繁子序列(序列模式)频繁子结构

    (1)频繁项集:一般是指频繁地在一起的出现的商品集合,比如顾客频繁的一起购买牛奶和面包。

    (2)频繁子序列:比如顾客倾向于先买手机、再买手机膜这个的一个频繁的序列模式。

    (3)频繁子结构:涉及到不同的结构形式,如树、图、格,如果一个子结构经常出现,则称它是频繁子结构。

2、关联分析

     (1)单维关联规则:面包=>牛奶【10%,60%】

     (2)多维关联规则:age(X,"20-29") /\ income(X,"10k-20k")=>buy(X,"laptop")【10%,70%】

 2.3 用于预测分析的分类与回归

分类是这样的一个过程,基于对训练数据集,即类标号已知的数据对象的分析,学习出一个模型,该模型预测类标号未知的对象的类标号。包括分类规则(IF-THEN)、决策树、神经网络、朴素贝叶斯分类、SVM、最近邻分类

回归是建立连续值的函数模型,做数值预测。

在分类和回归之前,使用相关分析技术试图识别与分类或回归显著相关的属性,将这些属性应用于分类和回归过程,过滤掉不相关属性。

2.4 聚类分析

 聚类是分析数据对象,而不考虑类标号,根据类内相似性最大化,类间相似性最小化的原则进行聚类。

三、认识数据

3.1 数据对象

 数据集由数据对象组成,一个数据对象代表一个实体,数据对象由属性来描述,比如数据库中行就是数据对象,列就是属性。

3.2 属性

表示数据对象的一个特征,属性、维、特征、变量都是可以互换使用。

3.3 属性的类型

标称属性:具有名称的属性,比如头发的颜色,有褐色、白色、红色、棕色

二元属性:只有两种状态0或1,0表示不出现,1表示出现。如果两种状态都同等重要,则称为二元对称属性,如男和女。如果状态的不是同等重要,则称为二元非对称属性,例如阳性和阴性。

序数属性:值之间具有某种意义的序,但相继值之间差是未知的,如小 中 大。

数值属性:用整数或实数表示。

机器学习中将属性归为:离散属性连续属性

3.4 数据的基本统计描述

       对于成功的数据预处理而言,把握数据的全貌是至关重要的,基本的统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声或离群点。

数据的中心趋势度量包括:中位数众数算术均值加权均值

数据的散布:极差、四分位数、四分位数差、方差、标准差,五数概括和盒图

图形显示:分位数图、分位数图-分位数图、直方图、散点图

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,264评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,549评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,389评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,616评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,461评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,351评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,776评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,414评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,722评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,760评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,537评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,381评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,787评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,030评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,304评论 1 252
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,734评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,943评论 2 336

推荐阅读更多精彩内容