Udacity MLND Project2 Find_donors - Summary

3天时间忙里偷闲,在项目导师的督促下终于将 Project2 完成了,值得庆幸的是 review 一次性通过。

image.png

通过项目的学习,着实有不少收获,按照整个项目的进展流程总结如下:

Data Exploration

拿到数据第一步还是先做数据探索,对数据分布有一个整体把握,观察是否存在数据倾斜等问题。在这里数据倾斜是指数据特征大多数分布在单点周围,但也有部分数据分布在极大或极小值的附近,这种现象会极大降低学习器的学习效率(可以想象比如用Logistics回归去建模这种数据,权重w的学习过程必然遭到强烈zig-zag形的摆动,因此学习受到影响)。解决这一问题的方法是采用 logarithmic transformation 变化将特征维度进行指数级的缩放。

通过可视化方法(项目提供的现成的模块vs.distribution,直接捕捉并可视化出分布倾斜的数据),可以发现 capital-gain 和 capital-loss 特征确实存在严重的分布倾斜现象:

image.png
image.png

Naive Estimator

Naive Estimator 概念就是不利用特征信息,强行将所有数据判别为我们的目标类别。可以知道,该分类器必然将所有目标数据“蒙到”。因此Naive分类器的 Recall 是 1,在Recall=1的前提下,accuracy=precision。

Data Preprocessing

数据预处理阶段,主要填补缺失数据、针对类型数据进行哑变量化。
这里我用到了列表推导式获取所有的类型数据,然后用pd.get_dummies方法,简单高效:

pd.get_dummies方法有很多参数可以使用,暂时还没搞精通,只能现学现卖,解决以上燃眉之急。

接下来是将预测目标由字符串类型映射为0、1数值类型,用到了series类型的map方法和lamda表达式(lamda表达式被reviewer夸赞了:D):

特地弄清了map、apply、applymap三个方法的主要区别:map是series类型的方法,apply、applymap是dataframe的方法,而apply是作用于整个列,例如求列的min(),applymap是作用于整个列中的每个元素。

Shuffle and Split Data

引入随机性,并设置种子为0.

Evaluating Model Performance

在评估标准方面,引入了F_beta指标(0-1之间,越大越好),该指标综合考虑precision和recall,并引入参数beta来做二者的权衡。如下公式:beta越大,越偏重recall,beta越小,越偏重precision。(具体为什么beta能起到这种作用,看了wiki也没搞精通,用到时再说吧)

image.png

Model Application

模型预测方面,我选用了三个模型为 Decision Tree, Adaboost, GaussianNB。
之所以算用这三个模型,DT是因为我觉得效果会比较好,Adaboost是因为学了课程以后觉得该ensemble learning的思维很强大,想体验一下效果(事实证明确实优于DT),选GaussianNB并不是因为它适合数据,恰恰是因为它不适合数据,我想验证下该模型具体会表现的多差劲:)。。结果如下:

image.png

在这个过程中,受益最大的是,项目提供的代码非常规范,让我对模型对比的实验过程有了一个更规范的编码方式,先编写好train和test的pipeline,然后将不同模型作为learner参数传入,即可一次性展示出不同模型的实验结果(详见review)。

Model Tuning

针对最优的Adaboost方法,继续采用网格搜索寻找最优参数,通过项目我真是了解GridsearchCV方法的强大了,必须得研究透该方法啊,以前调参都是傻不拉几的手动改参数:

Feature Selection

特征选择,首先项目让我根据直觉选取了top5的特征,然后用模型feature_importances_属性选择的top5特征进行对比,结果表明我的直觉分析还不错!注意:feature_importances_属性只有部分学习器有(e.g., adaboost, random forests)。

若只选取top5特征的话,学习性能略有下降,但是若对运行时间要求严格,进行特征选择是很必要的。

这里只给出了运行精度,因为偷懒没有给出运行时间的显示:)。此外这里用到了clone模块,个人猜测是克隆一个学习器的初始架构而不克隆学习结果。

Review 的收获

  1. python 2.7 的除法默认是floor除法 (python 3.x 则是真正),通过future引入division模块,可以实现便捷的真正除法,若要实现floor除法,只需要使用”\"就好了。
image.png
  1. Binary encoding is a great choice for cases where the number of categories for a given feature is very high.

  2. This map might help to give guidance when choosing an estimator.

  3. The two main weaknesses of Naive Bayes are the independence assumption among their features and the zero frequency problem. 贝叶斯方法的两个主要缺点是1)朴素假设 2)0频率问题,该问题可以通过贝塞尔校正改善。

  4. AdaBoost is one of the best estimators for this project! If you expand the parameter grid a little more, you can get a score higher than 0.74. Gradient Boosting also performs greatly here! 运气比较好,一下子选的Adaboost是最适合该项目的方法,reviewer也让尝试对learn_rate进行网格搜索,可以达到0.74的scores! 也建议试试梯度boosing,boosting大法好~集成大法是王道!

  5. Besides the feature importance, an alternative is to use calculate the significance of each feature using the weights of a Logistic Regression (LR) model. The significance is calculated dividing the coefficients of the LR by their standard errors (also know as Z-score). You can check more details in the Chapter 4.4.2 of The Elements of Statistical Learning. According to the reference, a Z-score higher than 2 is significant at the 5% level. Reviewer也提示可以采用除了特种重要度的其他方法进行特征重要性评估,利用LR模型进行权重评价,该方法目前还没仔细学习!

All in all, Pro2 收获满满。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容