如何用Alteryx解决Kaggle的Titanic问题

Q:我想参加kaggle但是我不会写代码?

A:可以的!

kaggle

前言

kaggle现在俨然成为了数据分析师,模型师,数据挖掘工程师,以及数据科学家等职业进入的必备软实力之一了。虽然我说不太清楚前面这四个职业在现在的企业眼中,或者是在HR眼中有着怎样的scope上的不同,但是作为一名初学者我们还是可以使用一些可以可视化的工具来参与这项盛事,或者是练习~ 所以本文将分享下如何用alteryx完成kaggle的titanic生存率预测,以及datarobot + alteryx 如何进行全自动化建模的过程(没有找datarobot公司要到账号,所以这部分是youtube上面别人视频的截图)。

回到开篇的问题上,不是很擅长写代码或者不愿意写代码的人可以参加kaggle么?请使用可视化数据分析/挖掘软件。说到可视化挖掘软件,首先先要致敬一下可视化数据挖掘的老大吧——SAS EM。(不知道Clementine跟SAS EM哪个更早)

上回书介绍了alteryx的基本操作以及abtest系列模块的用法,其实本文本应该是alteryx试用的开篇,但由于abtest这个分析工具看过培训后感受太深了,就换了下顺序,因此呢。

1. 本文有一定的娱乐倾向,所以建模过程不是规范化的,只是为了输出可以参与kaggle的结果。

2. 不会挨个介绍alteryx所有的功能模块,用到哪个就讲哪个。比如比较有特色的spatial工具组,以后也不会介绍,因为地理信息这个模块好像就没有中国的服务,即使有,国内的GPS的解密方法应该他家也没有,所以虽然很好但是不实用。

Alteryx实战:Kaggle的titanic生存率

数据准备

首先要从kaggle网站上下载这个titanic数据~

下载数据

下载页面往下拉就有数据字典与解释,也建议好好看一下了。对于那两个亲属关系,我感觉像是我想的那种关系。另外年龄字段还进行了预测么?但是仍然有大量缺失...后面会讨论怎样处理这个数据。

数据字典

下载好数据后就可以将数据直接拖进alteryx的工作区开始进行预测~

先给出用alteryx导入数据直到预测数据kaggle标准格式数据的整个工作流程:

titanic数据预测workflow

其中导入数据部分需要完成的有:

导入数据

在此说明下Auto Field这个模块的功能是自动识别导入文件中变量的格式。比如csv默认的所有列都是string格式的,但是有了Auto Field就可以自动识别一部分日期和数字格式了。但是比如双精度的数字,还是会因为过长而识别为字符串格式的,所以后面一步仍需要用变量选择工具调整一下部分变量的格式,具体怎样调整因人而异就好。最后将训练与预测数据集union在一起,可以开始下一步特征工程了。

特征工程

先说一下,由于titanic问题出来很久了,所以特征工程的思路百度可以搜到很多,由于上一次是用R来解的这道题,那时候我参考了知乎上一篇文章,所以就形成了定势思维,这次也是大体按照这个思路来解答的。

用R做特征工程参考:https://zhuanlan.zhihu.com/p/25185856

特征工程部分

特征工程部分大体分为四块

1. 对name这个字段进行拆解,提取中间的称谓部分,后期合称为一个称谓属性的特征。因为从称谓中可以分出,先生,小姐,女士,博士,市长,有爵位的人等。小姐和女士差不多就是未婚已婚的关系了。所以这样一个特征可以为预测生存概率提供一点贡献。也许社会地位高的活下来的可能性更大?

2. 总结拆解的称谓,并对少量缺失值进行填补。包括一位没有船票的乘客和两位不知道登陆地的乘客。

3. 对缺失较多的年龄这个字段进行集中处理。由于alteryx中没有提供类似于R里面mice(或者SAS 里面 proc mi)的功能进行多重填补,所以我就使用RF来简单预测了下年龄,后来看上去效果还可以。

4. 有了年龄就再划分两个标签,分别是少年儿童,和母亲两种标签。母亲这个标签年龄限制在16岁以上其实没必要,因为我查了下资料,发现1910年左右吧,西方世界新生儿母亲的年龄在22-24岁,说明还是挺保守的,有一篇paper研究了这个问题。

1. 姓名拆分:RegEx交互式正则工具

RegEx应该是本文重点之一。提供了一种近似于交互式的正则写法。因为对于一名BA而言,处理非结构化的文本属性特征会很麻烦,有时候会放到excel里面分列再替换分列,或者是sql中字符串函数。但是无论那种都没有正则表达式最清晰的描述字符串的pattern,不过我总是记不住正则表达式,该怎么办?OK,RegEx就是这样的工具了。

工具介绍
具体用法

对于titanic这个名称字段,首要提取的是称谓项,就是“Mr, Mrs, Miss”这类的称谓,同时也考虑提取姓氏和名字,但是由于西方人的姓名组成有点复杂了,比如出嫁后随夫姓(东方快车谋杀案里就纠结了很久姓氏问题),我不确定名字后面的括号内部是一个怎样的名字,所以这部分拆分的不是很完善,拆分了后也没有更好的去使用了。所以后面只用了称谓这一块数据。

对于name变量的实现

注:Alteryx在Parse工具栏中还提供对XML数据的解析功能,另外在Developre工具栏中提供了JSON数据的解析工具。

JSON工具

2. 合并字段,填补少量缺失值

2.1 对数据进行重新组合,创造衍生变量

创造衍生变量

2.2 填补少量缺失值

数据中存在两个字段有少量缺失,分别是登船港和船费。对于这类少数缺失值,可以通过数据观察后获得的中位数或者众数进行填补。

对于缺失的登船港口,用tableau简单探索了下票价与地点,仓位之间的关系,选择填补为C港

登船港口

此外可以采用alteryx中的缺失值填补工具imputation

imputation工具

遗憾的是,Alteryx中并没有提供R中的MICE包对缺失值进行多重插补法填补,所以对于年龄这个缺失比较多如果只是简单用imputation工具填补会导致模型的泛化能力不足。所以我考虑用随机森林来简单预测这个缺失值并进行填补。

3. 用随机森林填补年龄缺失

年龄数据填补过程
参数设置

4. 在填补年龄缺失后再创建两个衍生变量

是否儿童与母亲变量

训练模型,预测输出结果

之前的特征工程进行结束,就可以进行模型训练以及预测试题结果了。

建模预测过程
随机森林的结果
结果转存为Kaggle

接下来把结果上传kaggle就可以看到评分了~好像还可以的哈。

kaggle结果

用alteryx边探索边建模的过程还是比较清晰的,在处理数据这个阶段,alteryx这个工具还是有许多可圈可点的地方,另外全程用功能模块进行处理并不需要加入任何内嵌代码模块使整个建模过程更加的直观,当然这里提供的的建模过程并不规范,只是用于完成kaggle的试题。

但是如果觉得这样还是很麻烦的话,是否有更简单的方法呢?

答案是肯定的。

接下来想要show一下最近发现datarobot自动化建模的过程,会发现,真的非常自动化。

但是由于我没有申请到试用账号,所以下面这部分是youtube上视频的截图。

Datarobot + Alteryx 全自动化建模

关于datarobot介绍请见官网:https://www.datarobot.com/

数据输入+模型设置
建模结果
预测输出过程
预测模块参数配置

最后将全自动建模结果上传kaggle, 结果是高于基准线的。而且没有做任何变量处理,特征工程,唯一需要做出决定的是在众多模型中选择一个,视频中选择了AUC最高那个模型。

datarobot自动建模

后记

本文关注的点在可视化建模工具和全自动建模工具两部分。对于可视化建模工具,最大优点在于每个环节都有清晰的脉络相连接,可能这个模型完成后,半年或者一年需要进行修订的时候,我可以很快的衔接上之前的思路。如果是coding类建模(kaggle之前一次得分使用R做的)很可能我就需要再看一下代码以确定某些步骤我有没有做或者是怎么做的。这个问题可能所有的BA都会存在。之前用SAS EM时候感觉唯一的缺点就是做数据准备阶段,不够清晰和自动化。在这里alteryx无疑是提供了一些新的想法。

另外,如datarobot这类全自动建模服务提供商,势必会成为未来的优势,可见即使什么都不处理,datarobot的建模结果依然还可以。假如我将做好特征工程的数据提供给datarobot,进行多种模型的同时建模,效果会怎样?现在真无法估量。总之,这种类型的建模工具势必会为未来BA岗位的工作带来很大的变化。现在被各种新算法搞得焦头烂额的“大龄”BA们也可以更好的回归关注业务的初衷,希望早日普及~

总之本文是一篇偏向于娱乐向的文章,下一篇会回归到商业分析领域,如果有任何错误,也欢迎各位斧正,感谢阅读~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容