数据预处理

四个科学范式理论的基本内容

  • 第一范式产生于几千年前,是描述自然现象的,是以观察和实验为依据的研究,可称为经验范式
  • 第二范式产生于几百年前,是以建模和归纳为基础的理论科学和分析范式,可称为理论范式
  • 第三范式产生于几十年前,是以模拟复杂现象为基础的计算科学范式,可称为模拟范式
  • 第四范式正在出现,是以数据考察为基础,联合理论、试验和模拟一体的数据密集计算范式,数据被一起捕获或由模拟器生成,被软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据库和文档,可称为数据密集型范式。

数据的获取

网络爬虫技术是一种按照一定的规则,自动地抓取互联网信息的程序或脚本。可以帮助人们快速高效地从互联网上获取数据。

数据预处理

主要任务分为以下几类:

  1. 数据清洗
    数据清洗即填补空缺值,平滑噪声数据,纠正不一致数据,消除冗余数据。
    平滑噪声数据有分箱法,聚类和回归法。
  • 聚类是将相似的值组织成群或类,那么落在群或类外的值就是孤立点,也就是噪声数据。
  • 回归法可以发现两个相关变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。
  • 分箱法一般可分为两种:
    1)等深分箱法:又称等频率分箱法,即按照对象的个数来划分。就是将对象划分为每块包含大致相同数量样本的N块。每箱具有相同的记录数,记录数称为箱的权重,也叫做箱子的深度。
    2) 等宽分箱法:又称等距离分箱法,即按照对象的值来划分。就是将对象范围划分为等间隔的N块,如果A和B是最低和最高的属性值,那么间隔宽度W就是W=(B-A)/N. 每个箱子的区间范围是一个常量。
    确定了分箱方法后,有三种方式对每个箱子中的数据进行平滑处理:
    • 按箱平均值平滑处理:即对同一箱中的数据求平均值,用平均值代替该箱子中的所有数据。
    • 按箱边界平滑处理:对于箱中的每个数据,观察它与箱子两个边界值的差异,用差异较小的那个边界值代替该数据。
    • 按箱中值平滑处理:取箱子的中位数,用来替代箱子中的所有数据。
  1. 数据集成
    数据集成即通过集成多个来源不同的数据库、数据立方或文件。
    将多个数据源中的数据结合起来存放到一个一致的数据存储中。在数据集成过程中,通常需要考虑多信息源的匹配,数据冗余(相关性一般预示着冗余的存在),数据值冲突等问题。
  2. 数据变换
    数据变换即对原始数据进行规范化和聚类操作。
    数据规范化:
    将数据按比例缩放,使之落入一个小的特定区域,以加快训练速度,消除数值型属性因大小不一而造成数据处理和分析结果的偏差。
    常用的规范化方法如下:
    • 最小-最大规范化
      一般适用于已知属性的取值范围,要对原始数据进行线性变换,将原取值区间[min,max]映射到[new_min,new_max]上。
      v_new = (v-min)*(new_max-new_min)/(max-min) + new_min
    • 零均值规范化
      基于属性的平均值和标准差进行规范。
      v_new = (v-mu) / sigma
    • 小数定标规范化
      通过移动小数点的位置进行规范化,小数点的移动位数依赖于属性值的最大绝对值
      v_new = v / (10^j),其中 j 是满足下式的最小整数:
      max(|v_new|) < 1
  3. 数据规约
    数据规约即通过操作得到数据集的压缩表示,所得到的压缩表示将会小得多,但可以在其上得到与原始数据相同或相近的数据挖掘结果。
    之所以要进行数据规约,是因为被分析的对象数据集往往非常大,分析与挖掘会特别耗时甚至不能进行,而通过规约可以减少数据的大小,并使精简的数据集保持原有数据集的完整性,以提高数据挖掘的效率。
    数据规约的策略一般有:
    • 数据立方聚集
      所谓数据立方体,就是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(纬度)。
      但是数据立方不局限于三个维度,大多数在线分析处理(OLAP)系统能用很多个维度构建数据立方体。
    • 维规约
      通过删除不相关的属性来减少数据挖掘要处理的数据量的过程。
      维规约一般采用属性子集选择和主成分分析来实现。
    • 特征值规约
      又称特征值离散化技术,它将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这种技术的好处在于简化了数据描述,易于理解数据和最终的挖掘结果。
      特征值规约可以是有参数的,也可以是无参数的。有参数的是指使用一个模型来评估数据,只需存放参数,而不需要存放实际数据。
      有参数的特征值规约方法:
      1)回归:线性回归和多元回归
      2)对数线性模型:近似离散多维概率分布
      无参数的特征值规约方法:
      1)直方图:采用分箱近似数据分布,其中V最优和MaxDiff直方图最精确和最实用
      V最优:给定箱的个数,如果考虑所有可能的直方图,则V最优直方图是具有最小方差的直方图。直方图的方差是每个箱代表的原来值的加权和,其中权等于箱中值的个数。
      MaxDiff: 在MaxDiff直方图中,考虑每对相邻值之间的差。箱的边界是具有β-1个最大差的对,其中β是用户指定的桶数
      2)聚类:在数据规约时用数据的聚类代替实际数据
      3)抽样:用数据的较小随机样本表示大的数据集
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 1、引言 数据预处理的主要任务如下:(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性(2)...
    文哥的学习日记阅读 6,656评论 0 11
  • 机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。这个说法形象且深刻...
    3b899188980c阅读 3,264评论 0 3
  • 前提 在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执...
    神奇的考拉阅读 1,956评论 0 3
  • 一、引述 低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技...
    FreeLuo阅读 1,886评论 0 1
  • 数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工...
    Always_6778阅读 2,007评论 0 2