译|大数据科普系列-数据预处理

译注:那些高大上的算法实际上并不是数据科学家最耗时的地方。数据分析90%的时间都在数据预处理上面(英文对应说法叫Data munging/wrangling)。

☛** 1. 什么是数据预处理?**

数据预处理指的是如下过程:

  • 采集原始数据

  • 理解原始数据

  • 清洗原始数据

  • 为余下的数据分析或建模做准备

虽然它看起来和数据科学中夺人眼球的地方无关,然而这一步做好了,对后面的建模和数据解读的重要性比用什么算法甚至还重要。

2. 先说原则(First thing first)
如果你拿到一个新数据集并打算模拟其中蕴藏的规律,你很容易直接开干,在上面跑算法,然而要克服这种冲动。第一步应该是理解数据本身,先从单变量统计分布的假设开始,如果效果不佳,再逐渐增加分析的复杂度。诸如中位数和箱线图这样的重要统计方法会让你轻松得到关于这些数据的一个大概的分布,这有助于你理解那些在真正分析前要修复的潜在问题。

3. 数据类型(Data types)
确理解你的数据类型是什么和它们应该是什么,这两点相当重要。你可能个人对一些数据特征比较敏感(如账号)。当你认为它是字符的时候,它其实有可能是应该是数值类型,这不一定是说账号002比之账号101和账号001更加相关的情形。类似地,字符类型的数据如果被转换成按序数排列(ordinal scale),你可能会发现隐含其中的顺序规律。举例来说,调研结果一般有“同意”、“中立”、“反对”,这里面有隐藏顺序。最后,如果数据中有日期相关的信息,你就偷着乐吧!能处理和日期相关的时间特征是一项关键技能,它能为你打开通往所有规律的大门。再一次地,这归结为要去理解数据的来龙去脉(context)和探索你手头有的数据。

4. 数据缺失(Missing data)
在真实世界中,拥有完整无缺失的数据是黑天鹅事件。数据集的元素缺失会有各种可能性:不适用,没有采集,数据处理中操作失误... 处理数据缺失的第一步是找出缺失的原因,这样才能恰当处理。有时,你的最优选择就是无视缺失的数据;如果这样做,你就得当心给数据分析/模型中引入偏差(bias)的风险。比较推荐的做法是修复缺失的数据点,插入(impute)一些合适的数值(对于连续型数据,中位数就是一个保守的选择)或创造一些特殊值。

5. 高基数(High cardinality)
译注:Cardinality此处特指一个有限数据集的元素个数,不混淆时也可简单理解为数据集的大小。
有些范畴的数据源具备我们称为高基数的特征-大量离散数值(邮政编码或占有率)。高基数变量在你分析建模时会很棘手,因为你要冒着小样本集合上过拟合(overfit)的风险。对于数据背后的业务理解会非常重要,这对如何打包(group up)数据会有启迪。例如:如果你知道英国地理边界你将能更好地界定地区的邮政编码。以下图(译注:诺丁汉地区邮政编码图)为例:纯粹基于邮政编码,你会将NG20和NG23放一起,然而从地理上来说NG23和LN6在一起更合适。当然,你并不会总是深刻理解数据背后的信息,这时候就要去寻求更多数据驱动(data-driven)的方法去聚合数据,如聚类(clustering)。

6. 异常数据点(Outliers)
不是每个数据点都吻合标准的正态分布(standard Normal distribution)。有时你的数据会包含潜在样本偏差导致的极端数值(extreme values)。以收入为例,如果样本中有几个亿万富翁,均值的偏差会很大(因此看中位数和百分比要比均值靠谱)。理解数据的正常范围和恰当选择上下边界对于数据模拟很重要。
以上我强调了几点在数据预处理需要重点考虑的几个方面。当然这些并不能穷尽数据预处理的所有方面,但关键在于:如果你不能彻底搞懂你的数据,如何相信你分析出来的结论呢?

原文链接

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容