数据预处理

四个科学范式理论的基本内容

第一范式产生于几千年前，是描述自然现象的，是以观察和实验为依据的研究，可称为经验范式
第二范式产生于几百年前，是以建模和归纳为基础的理论科学和分析范式，可称为理论范式
第三范式产生于几十年前，是以模拟复杂现象为基础的计算科学范式，可称为模拟范式
第四范式正在出现，是以数据考察为基础，联合理论、试验和模拟一体的数据密集计算范式，数据被一起捕获或由模拟器生成，被软件处理，信息和知识存储在计算机中，科学家使用数据管理和统计学方法分析数据库和文档，可称为数据密集型范式。

数据的获取

网络爬虫技术是一种按照一定的规则，自动地抓取互联网信息的程序或脚本。可以帮助人们快速高效地从互联网上获取数据。

数据预处理

主要任务分为以下几类：

数据清洗
数据清洗即填补空缺值，平滑噪声数据，纠正不一致数据，消除冗余数据。
平滑噪声数据有分箱法，聚类和回归法。

聚类是将相似的值组织成群或类，那么落在群或类外的值就是孤立点，也就是噪声数据。
回归法可以发现两个相关变量之间的变化模式，通过使数据适合一个函数来平滑数据，即利用拟合函数对数据进行平滑。
分箱法一般可分为两种：
1）等深分箱法：又称等频率分箱法，即按照对象的个数来划分。就是将对象划分为每块包含大致相同数量样本的N块。每箱具有相同的记录数，记录数称为箱的权重，也叫做箱子的深度。
2）等宽分箱法：又称等距离分箱法，即按照对象的值来划分。就是将对象范围划分为等间隔的N块，如果A和B是最低和最高的属性值，那么间隔宽度W就是W=(B-A)/N. 每个箱子的区间范围是一个常量。
确定了分箱方法后，有三种方式对每个箱子中的数据进行平滑处理：
- 按箱平均值平滑处理：即对同一箱中的数据求平均值，用平均值代替该箱子中的所有数据。
- 按箱边界平滑处理：对于箱中的每个数据，观察它与箱子两个边界值的差异，用差异较小的那个边界值代替该数据。
- 按箱中值平滑处理：取箱子的中位数，用来替代箱子中的所有数据。

数据集成
数据集成即通过集成多个来源不同的数据库、数据立方或文件。
将多个数据源中的数据结合起来存放到一个一致的数据存储中。在数据集成过程中，通常需要考虑多信息源的匹配，数据冗余（相关性一般预示着冗余的存在），数据值冲突等问题。
数据变换
数据变换即对原始数据进行规范化和聚类操作。
数据规范化：
将数据按比例缩放，使之落入一个小的特定区域，以加快训练速度，消除数值型属性因大小不一而造成数据处理和分析结果的偏差。
常用的规范化方法如下：
- 最小-最大规范化
  一般适用于已知属性的取值范围，要对原始数据进行线性变换，将原取值区间[min,max]映射到[new_min,new_max]上。
  v_new = (v-min)*(new_max-new_min)/(max-min) + new_min
- 零均值规范化
  基于属性的平均值和标准差进行规范。
  v_new = (v-mu) / sigma
- 小数定标规范化
  通过移动小数点的位置进行规范化，小数点的移动位数依赖于属性值的最大绝对值
  v_new = v / (10^j)，其中 j 是满足下式的最小整数：
  max(|v_new|) < 1
数据规约
数据规约即通过操作得到数据集的压缩表示，所得到的压缩表示将会小得多，但可以在其上得到与原始数据相同或相近的数据挖掘结果。
之所以要进行数据规约，是因为被分析的对象数据集往往非常大，分析与挖掘会特别耗时甚至不能进行，而通过规约可以减少数据的大小，并使精简的数据集保持原有数据集的完整性，以提高数据挖掘的效率。
数据规约的策略一般有：
- 数据立方聚集
  所谓数据立方体，就是一类多维矩阵，让用户从多个角度探索和分析数据集，通常是一次同时考虑三个因素（纬度）。
  但是数据立方不局限于三个维度，大多数在线分析处理（OLAP）系统能用很多个维度构建数据立方体。
- 维规约
  通过删除不相关的属性来减少数据挖掘要处理的数据量的过程。
  维规约一般采用属性子集选择和主成分分析来实现。
- 特征值规约
  又称特征值离散化技术，它将连续型特征的值离散化，使之成为少量的区间，每个区间映射到一个离散符号。这种技术的好处在于简化了数据描述，易于理解数据和最终的挖掘结果。
  特征值规约可以是有参数的，也可以是无参数的。有参数的是指使用一个模型来评估数据，只需存放参数，而不需要存放实际数据。
  有参数的特征值规约方法：
  1）回归：线性回归和多元回归
  2）对数线性模型：近似离散多维概率分布
  无参数的特征值规约方法：
  1）直方图：采用分箱近似数据分布，其中V最优和MaxDiff直方图最精确和最实用
  V最优：给定箱的个数，如果考虑所有可能的直方图，则V最优直方图是具有最小方差的直方图。直方图的方差是每个箱代表的原来值的加权和，其中权等于箱中值的个数。
  MaxDiff: 在MaxDiff直方图中，考虑每对相邻值之间的差。箱的边界是具有β－1个最大差的对，其中β是用户指定的桶数
  2）聚类：在数据规约时用数据的聚类代替实际数据
  3）抽样：用数据的较小随机样本表示大的数据集

最后编辑于：2018.05.25 22:05:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

数据预处理

四个科学范式理论的基本内容

数据的获取

数据预处理

推荐阅读更多精彩内容