神经网络能否代替决策树算法？

作者：降晓冉

转载自https://www.zhihu.com/question/68130282/answer/264129606

【嵌牛鼻子】在神经网络和数据挖掘原来越盛行的时期，神经网络能否代替决策树算法呢？

【嵌牛导读】神经网络、决策树、替代

【嵌牛提问】神经网络能否代替决策树算法？

【嵌牛正文】这个问题可以从几个维度来分析。但先要说明决策树就是决策树，随机森林和xgboost的性能提升主要是来自于集成学习。所以，我们扩展一下题目把对比延伸到：

单棵决策树，如比较常见的C4.5等

以决策树为基模型的集成学习算法(Ensemble Tree)，如随机森林，gradient boosting，和xgboost

神经网络，包括各种深度和结构的网络

我的看法是，单棵决策树的用途已经比较有限了，已经基本被集成决策树代替。而决策树集成模型和神经网络有不同的使用场景，不存在替代一说。给出一个较为通用的看法仅供参考：

如果不强调绝对的解释度，尽量避免单棵决策树，用集成树模型

在集成数模型中，优先推荐使用xgboost

在中小数据集上，优先选择集成树模型。大数据集上推荐神经网络

在需要模型解释度的项目上，优先使用树模型

在项目时间较短的项目上，如果数据质量低(大量缺失值、噪音等)，优先使用集成树模型

在硬件条件有限及机器学习知识有限的前提下，优先选择树模型

对于结构化较高的数据，尤其是语音、图片、语言，优先使用神经网络模型（往往其数据量也较大）

用个不恰当的比喻，集成树模型就像Python，而神经网络就像C++。前者简单粗暴效果好，容易上手优点多，后者比较精贵更为复杂但严肃项目上潜力很大。如果你愿意好好学习数据结构、内存分配和要命的指针，C++几乎无所不能。但如果你只打算写个简单的网络爬虫，Python十行就可以搞定。

1. 单棵决策树 vs. 集成学习

决策树是1963年被 Morgan和Sonquist提出的[5]，通过类树的结构实现分类和回归。我们一般认为决策树模型:

易于使用和解释[6]，单棵的决策树很容易进行可视化和规则提取

可以自动实现特征选择[3] - 通过计算节点分裂时"不纯度的降低"(impurity reduction) 和剪枝(pruning)

预测能力有限，无法和强监督学习模型相提并论[6]

稳定性低(stability)方差高(variance)，数据扰动很容易造成决策树表现有很大的变化[1, 6]

随机森林是Breiman提出的[10]，模型使用集成的学习来降低单棵决策树中的高方差(high variance)从而提高了整体的预测能力。而gradient boosting machine(GBM) [9]和xgboost [8]分别是在2001年和2014年提出的。鉴于两者比较相似放在一起讨论，这两个模型：

和随机森林的并行学习(parallel learning)不同，使用串行学习(sequential learning)不断地提高的模型的表现能力降低偏差(bias)

在进行预测分类的时候非常快且对于储存空间的要求低[3]

boosting这个学习方法可以看成一种 l_{1} 正则化来防止过拟合，因此模型不容易拟合[3]。Python工具库scikit-learn也提到过其不容易过拟合[2]，用较多的基学习器也不碍事

单纯对比GBM和xgboost的话，它们的分类性能接近，xgboost有一个额外的正则项进一步降低过拟合。而xgboost的速度更快[4]，往往更适合较大的数据集

根据各种各样实践和研究来看，随机森林、GBM和xgboost都明显优于普通的单棵决策树，所以从这个角度来看，单棵决策树可以被淘汰了。

而单棵决策树最大的护城河在于，它可以被很轻松的可视化甚至是提取规则分类规则。而集成学习在这一点是很难做到的[34]。而可解释化对于工业界很多时候是很重要的，从这个角度来看，决策树还有一点点立身之本。但这个使用的前提是，一定一定要确定决策树的表现不错(比如查看交叉验证的结果)再来可视化和规则提取，不然很有可能提取到无效甚至是错误的规则。

随机森林的作者曾经实现过可视化，但远不如决策树直观，xgboost支持单棵树的可视化。从某个角度上来看，或许对xgboost中较为可靠和稳定的单棵树进行可视化可以彻底淘汰决策树。

2. 集成树模型 vs. 神经网络

神经网络已经是我们很熟悉的算法了，最大能力就是从复杂的数据中进行特征表示，也被认为可以近似表示任何函数(假设有特定多的node) [3]，现在如此火爆的深度学习就是深度较大的神经网络的特定叫法。神经网络和集成树模型在以下几点上有较大的不同：

从数据量上来讨论：神经网络往往需要较大的数量，而小数据集上树模型有明显的优势。常常有人问，多小才算小？这也同时需要取决于特征的数量。但一般来说，几百几十个数据的情况下神经网络很难表现良好。

从特征工程角度看：神经网络需要更苛刻的数据准备工作，而树模型一般不需要以下步骤：

缺失数据弥补(missing value imputation)

数据类型转化(categorical to numerical)：把类别数据变为数字型

数据缩放(data scaling)：把不同范围的数据归一到[0,1]或者投射到正态分布上

更多的参数调整：比如初始化权重，比如选择合适学习率等

从调参难度来看：集成树模型远低于神经网络。大部分的集成树模型也仅需要：(i)基学习器数量 (ii) 考虑的特征数 (iii) 最大深度等。神经网络的调参惨剧已经没什么好说的，这点上和树模型差距非常大。

从模型解释度来看：集成树模型的解释度一般更高，比如可以自动生成特征重要性(feature importance)。神经网络的特征虽然也可以一定程度上进行分析，但不大直观。再早年间，在神经网络上使用包裹式(wrapper)方法，每次加1或者减1个特征进行特征排序也曾存在过，远不如集成树模型的嵌入式(embedded)特征选择来的方便和直观。

从模型预测能力来看：抛去调参的难度差异不提，大中型数据上的表现较为接近。随着数据量增大，神经网络的潜力越来越大

从项目周期来看：因为在各个方面神经网络都需要更多的时间，因此其需要的总时间往往远大于决策树集成，更别提还需要很好的硬件支持，如GPU。

一般来说，在小数据量多特征下，集成的树模型往往优于神经网络。随着数据量增大，两者表现趋于接近，随着数据量继续上升，神经网络的优势会逐步体现。这个跟很多答主提到的一样：随着数据量上升，对模型能力的要求增加而过拟合的风险降低，神经网络的优势终于有了用武之地而集成学习的优势降低。

3. 总结

综上来看，大部分项目建议使用集成决策树，首推xgboost，速度快效果好用时少。特定的复杂且数据量大的项目，建议还是老老实实的为神经网络调参，拿出debug C++ pointer的精神来。

所以暂时来看，已经被替代的是单棵决策树，而集成决策树还非常重要甚至变得更为重要。在短时间内，看不到集成决策树模型被替代的可能 ʕ•ᴥ•ʔ

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

神经网络能否代替决策树算法？

推荐阅读更多精彩内容