机器学习虾扯淡之特征工程（一）No.38

0x00瞎扯淡

当当当，我又来啦。

哇咔咔，很多人都说我好久好久没写机器学习的东西啦。是不是忘啦？

没有没有，记着呢。

只是最近在看很多其他的东西，比如敲敲scikit-learn的文档啦，比如看看《Head First 数据分析》啦，比如看看《集体智慧编程》啦，看看gossip算法啦。

Head First 数据分析，这个，能不看就别看了，几乎没啥用。

《集体智慧编程》真心是给我开了一个脑洞，原来还可以用遗传算法自动生成程序，哎呀我天。

哎呀扯回正题，特征工程特征工程。

敲黑板敲黑板。今天讲特征提取的套路，啊。

🙈🙈🙈

快睁开眼睛。

🙉🙉🙉

好。

0x01简述

特征工程，顾名思义，就是批量生产特征的工程化，特征工程一般来说分为两部分，特征提取和特征选择。

好的特征是成功的一半嘛，这个步骤的结果直接决定了你最终模型训练的上限。

那么特征提取的套路呢，就分五步走，分别解决两个问题，提什么，以及怎么提。

◇ 拍一拍 ◇ 看一看 ◇ 抽一抽 ◇ 洗一洗 ◇ 改一改 ◇

0x02具体都是些啥

拍一拍

拍啥呢？

拍脑门啊。

管它啥玩意特征提取，先按照业务场景的实际需求先拍一些想去抓取的数据范围出来先。

看一看

那要看什么呢？

看的目的是对数据进行可用性评估。

评估数据获取的难度，数据的规模，数据的准确率，数据的覆盖率。

数据获取的难度？

比如你想知道整个城市垃圾场的数据，一桶一桶称？

啊，咋获取，你告诉我咋获取。

难度非常大，这些难度非常大的数据，如果我们觉得它们很重要，我们得换别的思路去代替。

数据的规模

数据的规模是十万，一百万还是几千亿？这个一定要摸清楚啊，跟后面处理的工具有很大关系。

数据的准确率

社交媒体上的年龄能信？

社交媒体上的性别能信？我看到真人我都无别甄别性别好吗？

数据的覆盖率

你所想要实现的业务需求的场景，数据能覆盖吗？会不会有些地方，根本就没有这个数据。或者数据只会存在在某些特定的用户，而其他用户根本就不会有这些数据的？

比如某个农村小白比如小蕉的资产信息，哪来哪来？

“EI，我跟你说，不存在的。”

🙅

“那你很棒棒喔。”

👏

抽一抽

啊，这个有技术含量了。

抽完放哪？抽哪些子集？

放哪？

喏，放那里。☝️

离线部分，可以抽完放HDFS上，或者RDBMS上。

在线部分，可能就要分级放在HBase、ElasticSearch，或者KV数据库等能快速索引的地方了。

抽哪些子集？

有时候数据上千亿，难道全部拿出来咩？也处理不了这么多啊。

只能按照数据分布来采集子集啦。

常用方法有随机采样啦，固定比例采样啦，接受-拒绝采样啦，重要性采样啦，Gibbs采样啦。

抽完还要看看数据分布，看看是不是要重采样啦，是不是要降采样啦，这样。

洗一洗

结合业务场景，进行数据列规则进行过滤

"钞票小于100元的我通通都不要。"

"这种拿小钱的粗活累活就让我来承担吧"

使用算法进行异常点检测

常用的套路有这些。

K均值聚类啊，层次聚类啊，谱聚类啊，DBSCAN啊，KNN啊。

以及四分位啊，极差啊，标准差，均差，看看数据分布大概是怎样的。

至于偏离太远的，得看看是特殊用户，还是垃圾数据，反正不太应该出现在我们接下里的过程里。

改一改

主要有三个套路要去弄。

标准化，离散化，缺省值。

什么叫标准化？

嗯，就是把所有的特征呢，都归到同一个值域里面。头长砍头，脚长砍脚。

🙈"咦，好血腥。。你再这样这个发不出去的小蕉。"

比如颜色像素，有256个值对不对，归到0-1就是全部处于256啦。这个叫归一化。

比如1、3、5、7、9。这种咋办呢？直接每个值都除以(最大值-最小值)，这个叫最大最小值归一化。

也可以用Logistic函数，直接映射到0-1上，这个叫函数映射。

也可以直接排序，给他们强行改成新值，这个叫排序归一化。

什么叫离散化？

就是将连续的数值进行分箱啦。

（1元,5元]的一箱，(5元，10元]的一箱，这样

“都说了少于100元的我都不要了”

“妈蛋又不是给你的”

什么叫缺省值？

就是肯定有些值不知道什么鬼原因，反正就不见了嘛。咋办？

普遍的做法呢，要么就填个众数，要么就填个平均值，要么就用其他机器学习方法预测一个填进去。

别填过头，会粗事的。。

0xFF结束鸟

凑活着看吧，没了~

微信公众号：一名叫大蕉的程序员。

最后编辑于：2017.12.10 02:09:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,362评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,330评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,247评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,560评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,580评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,569评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,929评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,587评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,840评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,596评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,678评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,366评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,945评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,929评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,165评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,271评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,403评论 2赞 342

机器学习虾扯淡之特征工程（一）No.38

0x00瞎扯淡

0x01简述

0x02具体都是些啥

数据获取的难度？

数据的规模

数据的准确率

数据的覆盖率

什么叫标准化？

什么叫离散化？

什么叫缺省值？

0xFF结束鸟

推荐阅读更多精彩内容