(三) 回归树与集成

1. 回归树(CART)

回归树,也称分类与回归树(classification and regression tree),是二叉树,即左分支取值为“是”,右分支取值为“否”。

CART的决策流程与传统的决策树相同,但不同点在于,每个叶节点会产生一个预测分数。

以下图为例,目的是:判断每个家庭成员是否喜欢电子游戏。
可输入的一系列特征,包括:年龄、性别、电脑使用情况等。

以年龄特征为例,按照「年龄<20岁」的条件,可将5人划分为树的两个叶节点,并分别赋予两个叶节点分数。


2. 回归树集成(Regression Tree Ensemble)

通常来说,仅用一棵树来进行划分,往往过于简单,并不有效。因此有树的集成,即,综合多棵树的结果作为最终的预测结果。

如下图,以集成两颗树为例,对于单个样本(男生),可以通过累加其两颗树叶节点的评分,得到最终的评分。

关于树的集成

较为常用的树集成主要有两种:Bagging、Boosting。

  • Bagging集成:树之间是弱依赖,彼此并行,目的是降低方差,典型的例子为RF(Random Forest, 随机森林)。
  • Boosting集成:树之间是强依赖,彼此串行(即,后一棵树依赖前一棵树的结果),目的是降低偏差,典型的例子为GBDT(Gradient Boosting Decison Tree,梯度提升树)。


3. 模型及参数

3.1 模型

假设共有K颗树,那么有公式:
\hat{y_i} = \sum_{k=1}^{K}f_k(x_i), f_k \in \mathcal{F}

其中,f_k(x_i),为第i个样本在第k颗树的评分。\mathcal{F},为包含K颗回归树的函数空间。\hat{y}_i,为第i个样本的预测值,即该样本在K颗树评分的累加值。

3.1.2 参数

为了得到样本的预测值,我们需要得到树的结构和每个叶节点的评分。
从上述计算公式可以看到,该条件可以进一步简化为,已知每一颗回归树的函数。

因此,参数为单颗回归树函数构成的函数集合,即,\Theta= \{f_1, f_2, ..., f_K \}。同样地,参数可以通过构造目标函数,结合已有训练样本求解。


4. 利用单一变量学习一颗树

方法:定义一个目标函数(损失函数+正则化项),然后优化它。

假设,需要预测某人在某一时间t,是否喜欢浪漫的音乐。在只有单一变量时间t输入的情况下,考虑学习一颗回归树。

那么,回归树可根据时间来切分构造。该过程等价于,学习分段的阶跃函数。相当于在不同的时间切点,去学习对浪漫音乐的喜爱程度。(如下图所示)

其中,目标函数包含损失函数和正则化项两部分。前者为训练误差,表示函数对每个数据点的拟合程度;后者为正则化项,表示函数的复杂度。

在上述问题中,函数的复杂度可以通过时间切点的个数,以及切分后每一部分高度(音乐喜爱程度)的L2范数来进行定义。

那么,如何较为直观地理解,欠拟合与过拟合呢?

如下图所示,左上为用户对某主题喜爱程度随时间变化的原始数据。
右上为过拟合示意图,当时间切点过多时,模型复杂度变高。
左下为欠拟合示意图,当切点位置不够准确时,训练误差变高。
右下为较理想的情况,很好地平衡了模型复杂度与训练误差之间的关系。

欠拟合与过拟合


5. 集成树的目标函数

假设共有K颗树,则有公式:
\hat{y_i} = \sum_{k=1}^{K}f_k(x_i), f_k \in \mathcal{F}

其中,f_k(x_i),为第i个样本在第k颗树的评分。\mathcal{F},为包含K颗回归树的函数空间。\hat{y}_i,为第i个样本的预测值,即该样本在K颗树评分的累加值。

因此,有目标函数为:
Obj = \sum_{i=1}^{n}l(y_i, \hat{y_i}) + \sum_{k=1}^{K}\Omega(f_k)
其中,l表示训练误差,\Omega表示模型复杂度。

此时,定义\Omega的方法包括:树节点数目、树深度、叶节点权重的L2范数等。


6. 目标函数 vs 启发式

对于决策树来说,通常是启发式的。大多数启发式能很好地映射到目标函数:
信息增益 --> 训练误差
剪枝 --> 按节点数目定义的正则化项
最大深度 --> 限制函数空间
叶子值的平滑 --> 叶子权重的L2正则化





Introduction to Boosted Trees: Tianqi Chen

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,911评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,014评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,129评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,283评论 1 264
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,159评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,161评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,565评论 3 382
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,251评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,531评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,619评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,383评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,255评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,624评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,916评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,199评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,553评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,756评论 2 335

推荐阅读更多精彩内容