机器学习(入门):Kaggle和泰坦尼克号预测

live 简介

  1. 谁适合本课程?
    如果你想成为数据分析、大数据、机器学习、人工智能领域的稀缺人才。零基础即可加入。
  2. 你将从本次课程中学到什么?
    如何入门Kaggle?
    理解泰坦尼克号数据
    如何清洗数据?
    如何使用逻辑回归进行预测?
    如何提交数据分析结果到Kaggle?
  3. 学完本课程预计达到的效果:
    通过一个真实案例学会数据分析的整个过程,为后续其他的机器学习算法打下基础。

内容大纲

  • 什么是Kaggle?
  • 理解泰坦尼克号数据
  • 如何清洗数据?
  • 如何提取特征和标签?
  • 如何建立机器学习模型?
  • 如何评估模型?

1、云计算,大数据,机器学习算法有什么关系?

我们天天都在聊机器学习和人工智能,那我们到底在聊什么呢?

机器学习的本质是:用机器取代人直接做决策。比如淘宝有近百亿件的商品,上万个商家,给不同的用户推荐什么商品不是由人来决定的,只能是机器。让机器取代人做决策有几个非常重要的前提:云计算、大数据和机器学习算法。

没有云计算就没有办法用这么低的成本来存储和计算海量的数据,所以云计算和大数据是相互联系在一起的。因为有了云计算,所以我们能够处理这么大的数据,因为有处理大数据的需求,所以我们对云计算的要求也越来越高,最终这两者推动了整个行业不断的高速发展。云计算和大数据真的能发展起来是因为背后有一个大脑,这个大脑就是算法。

那么什么是机器学习算法呢?机器学习算法其实是把人类决策思考的过程抽象成一个模型,然后用数学的方法给这个模型找到最优化的解,然后用代码把这个解变成机器可以执行的命令,最终完成一个机器大脑的构建。所以算法就是人对一个特定事情的理解被转化成机器可以理解和执行的模型和代码,这个模型和代码和人脑不一样的地方在于最核心是靠海量数据不断地学习来优化自己的决策。

所以我们说算法和大数据是互相离不开的,如果没有大数据的场景,算法就会变成无米之炊;如果没有通过算法引擎进行实施计算产生决策结果,那么所有的数据都是被浪费的。

大数据和算法的结合就是机器学习的本质,两者的结合产生了所谓的快速迭代和快速优化。比如 Alpha-Go 打败了世界顶级围棋冠军,是因为它计算能力特别强,学习效率非常高,它可以学习人类历史上所有的棋谱。之后推出的 Alpha-Go-Zero 又有了一个更大的突破,它可以不用人的历史数据,靠左右互搏规则来制定和演化,达到一个更强的算法,打败了 Alpha-Go。可以看到未来算法的突破还有很大的空间。

算法和大数据的关系可以比作生产线和钢铁的关系,没有算法就不能处理数据,同样的没有数据就不能优化算法的结果。因此我们把人工智能分为图中的3层:第1层是基础层,在这一层我们使用云计算技术来存储海量的数据,比如淘宝的购物数据,滴滴打车的交通数据等等,为人工智能技术的实现和人工智能应用的落地提供了基础的后台保障。第2层是技术层,主要是各种处理数据的机器学习算法。第3层是应用层,比如谷歌搜索,智能医疗,无人驾驶等等。


2、机器学习步骤


3、提出问题

我们研究的问题是:什么样的人在泰坦尼克号中更容易存活?


4、理解数据

测试数据集里少了一个变量是生存率,是因为我们的目的是建立模型预测出生存率。

船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%


5、练习:泰坦尼克号里面有什么?

1)了解什么是Kaggle,如何入门(长按此处打开链接):https://www.zhihu.com/question/23987009/answer/285179721

2)在电脑前面时再打开泰坦尼克号项目页面,然后下载数据(长按可以复制地址):https://www.kaggle.com/c/titanic

3)完成课程后面的章节,需要你提前学习和回顾以下课程内容: 机器学习(入门):如何用逻辑回归分类(长按此处打开链接):https://www.zhihu.com/lives/936898496209645568


6、数据清洗:数据预处理


7、练习:如何处理缺失值?


8、数据清洗:什么是特征工程?

特征工程就是最大限度地从原始数据中提取特征以供机器学习算法和模型使用。

有一句话在业界中非常流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而言。


9、如何进行特征提取?


10、练习:分类数据的特征提取


11、如何对姓名等字符串进行特征提取?


12、练习:字符串数据特征提取


13、如何进行特征选择?


14、练习:特征选择


15、如何构建模型?


16、如何评估模型?


17、练习:构建模型和评估


18、方案实施

因为我们这次课程是第1次的Kaggle项目,所以没有讲很多细节的问题,就是整体地把流程走下来。当我们在后面课程中系统学习新的机器学习算法和特征工程方法后,就可以回过头来优化这个项目,从而提高我们的排名。


19、练习:获取你的Kaggle排名


20、总结

下一期预告:如何撰写数据分析报告
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容