决策树

概念

  决策树(Decision Tree)是一种有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策(基于分类或者回归)规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。
  我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种树结构,我们只需要问一系列问题就可以对数据进行分类了。比如说,来看看下面的一组数据集,这是一些列已知物种以及所属类别的数据:


动物的特征和标签

  我们现在的目标是,将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据,决策树算法为我们算出了下面的这棵决策树:


构建好的决策树

  假如我们现在发现了一种新物种,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这棵决策树来判断它的所属类别。
  可以看出,在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点。

决策树算法的核心是要解决两个问题

  1.如何从数据表中找出最佳节点或最佳分枝。
  2.如何让决策树停止生长,防止过拟合。
  决策树是基于训练集数据构建出来的,如果树长的越大分支越细致,则对训练数据的描述越清楚,但是不一定会很好的作用到测试数据中。

构建决策树

  接下来讨论如何根据已有的数据集来建立有效的决策树。原则上讲,任意一个数据集上的所有特征都可以被拿来分枝,特征上的任意节点又可以自由组合,所以一个数据集上可以发展出非常非常多棵决策树,其数量可达指数级。在这些树中,总有那么一棵树比其他的树分类效力都好,那样的树叫做”全局最优树“。
  全局最优:经过某种组合形成的决策树,整体来说分类效果为最好的模型。
  局部最优:每一次分枝的时候都向着更好的分类效果分枝,但无法确认如此生成的树在全局上是否是最优的。
  机器学习研究者们开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次最优决策树。这些算法基本都执行”贪心策略“,即通过局部的最优来达到我们相信是最接近全局最优(次最优决策树)的结果。
  为了要将数据集转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,而衡量这个“最佳”的指标叫做“不纯度”。 不纯度是基于叶子节点来计算的,所以树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的。 也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。

不纯度

  决策树的每个根节点和中间节点中都会包含一组数据(工作为公务员为某一个节点)。在这组数据中,如果有某一类标签占有较大的比例,我们就说该节点越“纯”,分枝分得好。
  某一类标签占的比例越大,叶子就越纯,不纯度就越低,分枝就越好。
  如果没有哪一类标签的比例很大,各类标签都相对平均,则说该节点”不纯“,不纯度高,分枝不好。
  分类型决策树在节点上的决策规则是少数服从多数,在一个节点上,如果某一类标签所占的比例较大,那所有进入这个节点的样本都会被认为是这一类别。
  具体来说,如果90%根据规则进入节点的样本都是类别0(节点比较纯),那新进入该节点的测试样本的类别也很有可能是0。
  但是,如果51%的样本是0,49%的样本是1(极端情况),该节点还是会被认为是0类的节点,但此时此刻进入这个节点的测试样本点几乎有一半的可能性应该是类别1。
  从数学上来说,类分布为0和100%的结点具有零不纯性,而均衡分布 50%和50%的结点具有最高的不纯性。如果节点本身不纯,那测试样本就很有可能被判断错误,相对的节点越纯,那样本被判断错误的可能性就越小。

如何计算不纯度

信息熵

  信息熵(entropy):信息量的值在信息论中被称为信息熵,是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低(不纯度或者信息量越低)。
  问题:现在有32支球队,然后猜出谁是冠军。
  如果我们不知道球队的任何信息情况下,我们可以这么猜:
    你可能会乱猜那么猜对的几率为1/32。
    如果你每猜错一次需要付出一定的代价,则你就会设计方法提升猜你对的几率而减少代价。每次折半猜,将32只球队以此编码为1-32,则第一次你会问,冠军在1-16中,在1-8中吗等等这样折半的猜,那么这样势必会减少猜错的几率,付出较少的代价。
    折半猜的话只需要猜log32=5次(底数为2)就可以知道结果啦。
  结论:
  我们已经知道32只球队猜对的代价为log32=5次,64只球队猜对的代价为log64=6次,以信息论的角度来讲的话,代价为5次或者代价为6次被称为代价为5比特或者代价为6比特。
  比特:就是信息论中信息度量的单位也叫做信息量。这个概念是由信息论的创始人香农提出的。
  香农在信息论中提出信息量的值会随着更多有用信息的出现而降低
  继续猜冠军的问题:
  如果将32只球队的一些往期比赛胜负的数据进行公开,则《谁是冠军》的信息量的值肯定会小于5比特,其精准的信息量的值计算法则为:

信息熵计算公式

公式解释:
  在谁是冠军例子中,n就是32,p(xi)就是某只球队获胜的概率,H为信息量的值叫做信息熵
  比特or信息量也就是信息熵的单位。
  那么在谁是冠军的例子中每一个球队获胜的概率为1/32,通过折半计算的代价也就是信息熵为5:
  5 = - (1/32log1/32 + 1/32log1/32 + ......),因为log1/32=-5(2**-5==1/32)为负数,所以求和后加一个负号表示正的结果5。5就是该事件的信息熵。
  如果获知了球队的往期获胜数据公开后,则德国获胜概率为1/4,西班牙为1/5,中国为1/20,则带入香农公式中为:
  5 >= - (1/5log1/5 + 1/32+log1/32 + 1/4+log1/4+......)结果值一定小于5。
  结论:信息熵和消除不确定性是相关联的。
  信息熵越大则表示信息的不确定性越大,猜对的代价大
  信息熵越小则表示信息的不确定性越小,猜对的代价小

信息增益

为什么越重要的特征要放在树的越靠上的节点位置呢?
  因为我们的分类结果是要从树的根节点开始自上而下的进行分步判断从而得到正确的划分结论。越重要的节点作为树中越靠上的节点可以减少基于该树进行分类的更多的不确定性。
如何衡量决策树中节点(特征)的重要性呢?如何理解特诊的重要性呢?
  重要性:如果一个节点减少分类的不确定性越明显,则该节点就越重要。
  年龄要比收入可以减少更多见与不见分类结果的不确定性。
  使用信息增益衡量特征的重要性。
信息增益
  在根据某个特征划分数据集之前之后信息熵发生的变化或差异叫做信息增益,知道如何计算信息增益,获得计算增益最高的特征就是最好的选择。
  信息增益作为决策树的划分依据,决定决策树怎么画,每个特征作为节点存放位置的确定。
  信息增益g(D,A)计算公式为:

信息增益计算公式

  公式解释:信息增益 = 划分前熵 - 划分后熵

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容

  • 原创 HANSEN老师 决策树是一种可解释性较强的策略分析工具。creditmodel提供了分类回归树和条件推断树...
    HansenVan阅读 5,235评论 0 4
  • 决策树(Decision Tree) 比较适合分析离散型数据,若数据是连续型数据,则先将其转成离散型数据再做分析。...
    万物皆可代码阅读 584评论 0 1
  • 本文仅作网络笔记用,不定时完善。 决策树根据输出的不同,分为回归树和分类树,但两种树的学习过程并无特别大的不同,都...
    JSong1122阅读 598评论 0 0
  • 决策树不确定性的度量方法 用熵和基尼指数去衡量数据集的不确定性在信息论和概率论统计中,熵是表示随机变量不确定性的度...
    dingtom阅读 417评论 0 0
  • 推荐指数: 6.0 书籍主旨关键词:特权、焦点、注意力、语言联想、情景联想 观点: 1.统计学现在叫数据分析,社会...
    Jenaral阅读 5,700评论 0 5