翻译自 Kaggle
翻译 by Wyatt Huang
转载请著名
简介
我们首先概述机器学习模型如何工作以及如何使用它们。如果你以前做过统计建模或机器学习,这可能对你来说会很简单。别担心,我们很快就会建立强大的模型。
本课程将为您构建以下场景的模型:
你的堂兄已经花了数百万美元推测房地产。由于您对数据科学的兴趣,他愿意与您成为业务合作伙伴。他会提供资金,你则会提供预测各种房屋价值的模型。
你问你的堂兄他过去如何预测房地产价值。他说这只是直觉。但是实际上,他通过对房价市场的观测而总结出了一系列的商业模式,而他则利用这些模式对他正在考虑的新房进行预测。
机器学习的工作方式相同。我们将从一个名为决策树的模型开始。虽然有更高级的模型可以提供更准确的预测。但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。
在上面的这个决策树模型中呢,将房屋分为两类。预测的价格是根据已知的同类型房子的价格来估计的。
在上面的那个模型中,我们先是使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。从数据捕获模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。当我们用数据训练好一个模型后,我们就能用这个训练好的模型去对其他的房子进行价格预测了。
模型是如何训练的是一个很复杂的问题,我们将会在以后讨论它。
优化我们的模型
通过拟合房地产培训数据,更有可能产生以下两个决策树中的哪一个?
情况一↓
情况二↓
我们都知道,情况一的模型显然更具有说服力,因为它更接近于现实情况:拥有更多卧室的房屋往往以比卧室更少的房屋更高的价格出售。
对于我们上面的模型,它最大缺点是它不能捕捉影响房价的大多数因素,如浴室数量,位置等。您可以使用具有更多“分支”的决策树(splits)来捕获更多因素。这些被称为“更深”的树木 (deeper tree)。下面是一个例子:
当我们有一个比较具体的决策树模型后,您就可以通过在决策树中进行追踪来预测任何房屋的价格,房子的预测价格位于树的最后面。树的最后一层我们称它为为叶子(leaf)。
树上的分支以及和叶子将都由数据确定,下面提供了数据的例子,大家可以看一看来熟悉它,因为以后你将会和这些数据打交道。
关键词:
- 决策树模型
数据: