为回归问题选择最佳机器学习算法

任何类型的机器学习（ML）问题，都有许多不同的算法可供选择。在机器学习中，有一种叫做“无免费午餐（No Free Lunch）”的定理，意思是没有任何一种ML算法对所有问题都是最适合的。不同ML算法的性能在很大程度上取决于数据的大小和结构。因此，除非我们直接通过简单的试验和错误来测试我们的算法，否则我们往往不清楚是否正确选择了算法。

但是，我们需要了解每个ML算法的优点和缺点。尽管一种算法并不总是优于另一种算法，但是我们可以通过了解每种算法的一些特征来快速选择正确的算法并调整超参数。我们将研究一些关于回归问题的比较重要的机器学习算法，并根据它们的优缺点来决定使用它们的准则。

线性和多项式回归

线性回归

简单来说，单变量线性回归是一种利用线性模型（如一条线）对单个输入自变量(特征变量)和输出因变量之间的关系进行建模的技术。比较一般的情况是多变量线性回归，为多个独立输入变量(特征变量)和一个输出因变量之间的关系创建模型。模型保持线性，因为输出是输入变量的线性组合。

第三个最常见的例子叫做多项式回归模型，该模型现在变成了特征变量（如指数变量，正弦和余弦等）的非线性组合。但这需要知道数据与输出的关系。回归模型可以使用随机梯度下降(SGD)进行训练。

优点:

当建模关系不是非常复杂并且没有太多数据时，建模快速且特别有用。

线性回归很容易理解，这对商业决策可能非常有价值。

缺点：

对于非线性数据，多项式回归对于设计来说可能相当具有挑战性，因为必须具有关于数据结构和特征变量之间关系的一些信息。

由于上述原因，当涉及到高度复杂的数据时，这些模型不如其他模型。

神经网络

神经网络由一组相互连接的节点（称为神经元）组成。来自数据的输入特征变量作为多变量线性组合被传递给这些神经元，其中乘以每个特征变量的值被称为权重。然后将非线性应用于该线性组合，使神经网络能够建模复杂的非线性关系。神经网络可以有多层，其中一层的输出以相同的方式传递给下一层。在输出端，通常不会施加非线性。神经网络使用随机梯度下降（SGD）和反向传播算法（均显示在上面的GIF中）进行训练。

优点：

由于神经网络可以具有许多非线性层（从而具有参数），所以它们在建模非常复杂的非线性关系时非常有效。

我们通常不必担心神经网络中的数据结构，它在学习几乎任何类型的特征变量关系时都非常灵活。

研究一直表明，仅仅为神经网络提供更多的训练数据，无论是全新的还是增加原始数据集，都会使网络性能受益。

缺点：

由于这些模型的复杂性，它们不容易解释和理解。

对于训练来说，它们可能非常具有挑战性和计算密集性，需要仔细调整超参数并设置学习速率时间表。

它们需要大量数据才能实现高性能，并且在“小数据”情况下通常会受到其他ML算法的影响。

回归树和随机森林

随机森林

从基本情况开始，决策树是一种直观的模型，该模型通过遍历树的分支与节点的决策选择下一个分支下降。树归纳法是将一组训练实例作为输入，确定哪些属性最适合分割，分割数据集，并在产生的分割数据集上重复出现，直到所有训练实例被分类。在构建树时，目标是在可能创建的最纯粹的子节点属性上进行分割，为了对数据集中的所有实例进行分类，需要对其进行最少的分割。纯度是通过信息增益的概念来衡量的，这涉及到需要对一个未被发现的实例进行多少了解，才能使其正确分类。在实践中，这通过比较熵或者是将当前数据集分区的单个实例进行分类所需的信息量，如果当前的数据集分区要在给定的属性上进一步划分，则需要对单个实例进行分类。

随机森林只是决策树的集合。输入向量通过多个决策树运行。对于回归，所有树的输出值是平均的;对于分类，使用投票方案来确定最终的类别。

优点：

擅长学习复杂的高度非线性关系。它们通常可以实现相当高的性能，优于多项式回归，并且性能通常与神经网络的相当。

非常容易解释和理解。虽然最终的训练模型可以学习复杂的关系，但是在训练过程中建立的决策边界很容易理解，也很实用。

缺点：

由于训练决策树的原因，他们可能容易出现严重的过度拟合。完整的决策树模型可能过于复杂并且包含不必要的结构。虽然有时可以通过适当的结构树修剪和较大的随机森林集合来缓解这种情况。

使用较大的随机森林集合来实现更高的性能会带来速度变慢和需要更多内存的缺点。

原文网址:http://www.atyun.com/17333_为回归问题选择最佳机器学习算法&=6.html

关于人工智能，如果想了解更多，可关注微信公众号：atyun_com或者网站AiTechYun（http://www.atyun.com/），最快获得第一手信息。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

为回归问题选择最佳机器学习算法

线性和多项式回归

神经网络

回归树和随机森林

推荐阅读更多精彩内容