《机器学习实战》笔记(九):Ch9 - 树回归

第九章 树回归(代码)

  • 树回归算法的优缺点

    • 优点:可以对复杂和非线性的问题建模.

    • 缺点:结果不容易理解.

    • 适用数据类型:数值型和标称型.

  • 树回归和分类树的思路类似,且方法如下

    • 收集数据

      • 采用任意方法收集数据.
    • 准备数据

      • 需要数值型的数据,标称型数据应该映射成为二值型数据.
    • 分析数据

      • 汇出数据的二维可视化显示结果,以字典方式生成树
    • 训练算法

      • 大部分时间都花费在叶节点树模型的构建上.
    • 测试算法

      • 使用测试数据上的R*R值来分析模型的效果.
    • 使用算法

      • 使用训练出的树做预测,预测结果还可以来做很多事情.
  • 连续和离散型特征的树的构建

    • 在树的构建过程中,需要使用到字典,该字典包含以下4个元素

      • 带切分的特征

      • 待切分的特征值

      • 右子树

      • 左子树

    • 构建树的伪代码

      • 找到最佳的待切分特征

      • 如果该节点不能再分,将该节点存为叶节点

      • 执行二元切分

      • 在右子树调用方法

      • 在左子树调用方法

  • 将CART算法用于回归

    • 在构建树种新增伪代码

      • 对每个特征

      • 对每个特征值

      • 将数据切成两份

      • 计算切分的误差

      • 如果当前误差小于当前最小误差,那么将切分设定为最佳切分并且更新最小误差

  • 树剪枝

    一棵树如果节点过多,就会出现“过拟合”
    通过降低决策树的复杂度来避免过拟合的过程称为剪枝

    • 预剪枝方法

      • 定义一个高度,当决策树达到该高度的时候就停止决策树的增长

      • 达到某个节点的实例具有相同的特征向量,即使这些实例不属于同一类,也可以停止决策树的生长,这个方法对处理数据冲突的时候比较有效

      • 定义一个阀值,当某个节点树小于阀值的时候就可以停止

      • 定义一个阀值,通过计算每次扩张对系统性能的增益,并比较增益值与该阀值大小来决定是否停止决策树的增长

    • 后剪枝方法

      • REP(错误率降低剪枝)

        • 删除以此节点为根的子树

        • 使其成为叶子节点

        • 赋予该节点关联的训练数据的最常见分类

        • 当修剪后的树对于验证集合的性能不会比原来的树差时,才真正删除该节点

      • PEP(悲观错误剪枝)

        • 根据剪枝前后错误率来判定子树的修剪。弥补了REP种的缺陷,在评价子树的训练错误公式中添加了一个常数,假定每个叶子节点都动自动对实例的某个部分进行错误的分类

        • 缺陷

          • PEP算法使用的从上往下的剪枝策略,会导致剪枝过度

          • 会出现剪枝失败的情况

      • CCP(代价复杂度剪枝)

        • 根据真实的误差估计选择最佳决策树
      • EBP(基于错误剪枝)

        • 计算叶节点的错分类样本率估计的置信区上线为U

        • 计算叶节点的预测分类样本数

        • 判断是否剪枝以及如何剪枝

以下是集中剪枝的方法比较

REP PEP CCP
剪枝方式 自底向上 自顶向下 自底向上
计算复杂度 o(n) o(n) o(n)*o(n)
误差估计 剪枝集上误差估计 使用连续纠正 标准误差
  • 小节

    CART算法可以用于构建二元树并处理离散型和连续型的切分,该算法构建出的树会倾向于对数据过拟合。


代码托管见Github

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容