什么是数据挖掘?

一、前言


文中部分内容来自书籍和网络,部分内容为自己的理解。希望借助笔记的方式能够加深自己对该部分知识的掌握,也作为日后回顾的记录。

二、基本概念


很多小伙伴听到数据挖掘这四个字的时候很困惑,虽然字面意思大家都知道,但是数据挖掘到底是个什么东西,需要用到什么技术来实现却并不了解,下面我们就来剖析一下,到底什么是数据挖掘。

按照惯例,先来一个百度百科的定义:

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

根据定义可以看出,数据挖掘是一个过程结果的称谓。即主要目标是从数据中挖取隐藏的信息。挖取的过程中会采用许多技术,包括运用一系列统计方法、模式识别、机器学习(归根结底都是统计方法啦)等等技术,来实现挖取隐藏信息的目的。

引用一张图来阐明数据挖掘在整个数据处理流程中的阶段和作用:

三、挖掘的数据对象


  • 数据库数据
    顾名思义,就是存储在数据库中的数据。这里面的数据库主要指关系型数据库。

  • 数据仓库
    数据仓库是从多个数据源收集汇总的一个数据存储库,跟事务型数据库的不同点在于它是面向主题的,有一定的分类和聚合。并且分为度量值和维度值即事实表和维度表这样的区分,便于多维数据分析(OLAP)。

  • 事务数据
    事务数据库的每个记录代表一个事务,就是我们常见的业务系统,订单系统。例如京东的一次购物就有一条购物信息的记录,这就是事务。

  • 其他类型的数据
    除了以上类型的数据之外的其他数据,包括时间相关或序列相关的数据、地理空间的数据、文本数据以及图片和音视频等。

四、挖掘的模式


  • 特征化与区分
    数据特征化是目标数据的一般特性或特性的汇总。
    数据区分是将目标类数据对象的一个特性与一个或多个对比类对象的一般特性进行比较。

  • 频繁模式、关联和相关性
    频繁模式是数据中频繁出现的模式

  • 用于预测分析的分类与回归
    分类(classification):分类规则、决策树、数学公式、神经网络等。先从数据中选出分好类的训练集,在该训练集上运用数据挖掘技术,建立分类模型,然后对没有分类的数据进行分类。这里的类是预定义好的,即个数是确定的。
    下图中,a是分类规则(IF-THEN规则), b是决策树, c是神经网络

回归(regression):建立连续值函数模型
相关分析(relevance analysis):在做分类和回归之前,先识别与分类和回归过程显著相关的属性,其他不相关的属性可以不考虑。

  • 聚类分析
    聚类分析数据对象,不考虑分类。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
    对象根据最大化类内相似性最小化类间相似性的原则进行聚类或分组。
    例如下图,找到具有共性的数据,然后聚类:
  • 离群点分析
    分析数据集中与数据的一般行为或模型不一致的数据对象。又称为异常挖掘

五、数据挖掘使用的技术


  • 统计学
    研究数据的收集、分析、解释和表示。运用统计模型对数据建模、使用假设检验来验证模型等。

  • 机器学习

    1. 监督学习(supervised learning)
      基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。
    2. 无监督学习(unsupervised learning)
      本质上是聚类的同义词。学习过程是无监督的,因为输入的实例没有类标记。
    3. 半监督学习(semi-supervised learning)
      在学习模型时,使用标记的和未标记的实例。标记的模型用来学习类模型,未标记的实例用来进一步改进类边界。
    4. 主动学习(active learning)
      让用户在学习过程中扮演主动角色,让用户对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。给定要求标记数量的约束。目的是通过主动的从用户获取知识来提高模型质量。
  • 信息检索(IR)
    是搜索文档或文档中信息的科学。假定搜索的数据是无结构的,主要采用关键词。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,176评论 5 469
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,190评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,232评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,953评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,879评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,177评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,626评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,295评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,436评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,365评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,414评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,096评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,685评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,771评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,987评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,438评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,032评论 2 341

推荐阅读更多精彩内容