决策树基础介绍

一。介绍

决策树是一种分类算法。它的算法思想是:根据单一特征对类别的重要性,将特征进行“排序”;然后分类的时候,用这些“排序”的特征,高效的分类。

二。算法步骤

1,特征选择

       首先,对于特征选择下面介绍三种最普通的方法,它们有许多共同之处,差别在于对某一特征重要性的度量不一样。

        前两者的度量跟熵有非常密切的关系,那么什么是熵呢?——熵是对不确定性的度量。对于一件事情,如果它是确定性事件,则熵为0;如果对于这件事情,每种可能出现的概率相同,则熵达到最大。具体的公式见上面。

        计算技巧:由于要计算的是信息增益最大,在划分前信息总量infobeforeSplit()一定的情况下,我们完全可以直接求划分后信息量最小的特性即可。

1.1 ID3

以信息增益为基础,进行特征选择。其思想是:对于某一个特征,在知道该特征后,根据类别的信息量减少的量,对特征进行排序。

1.2 C4.5

       如果某一个特征只含一个纯结点,这样决策树在选择属性时,将偏向于选择该属性,但这肯定是不正确(导致过拟合)的。因此有必要使用一种更好的方法,那就是C4.5中使用的信息增益率。

其考虑了分支数量和尺寸的因素,使用称为内在信息的概念。【1】

      内在信息,可简单地理解为表示信息分支所需要的信息量。

      实际上可以看出,属性的重要性会随着其内在信息(Intrinsic Information)的增大而减小。信息增益率作为一种补偿(Compensate)措施来解决信息增益所存在的问题,但是它也有可能导致过分补偿,而选择那些内在信息很小的属性,这一点可以尝试:首先,仅考虑那些信息增益超过平均值的属性,其次再比较信息增益。

1.3 CART

【2】

2,剪枝

        假如原本有1000个特征,在经过特征选择后,就是1000个特征的排序。但是实际上,后面的很多特征是没什么参考价值的,但是却还会影响分类的结果。所以要使用剪枝,来避免过拟合。

        剪枝分为预剪枝和后剪枝。预剪枝就是一边生成决策树一边将没用的枝剪掉;后剪枝是生成一整颗完整数之后再剪枝。

前者好处是效率高,坏处是没能从全局的角度来剪枝,容易导致剪枝过度;(该剪枝方法尽管不是统计有效的,但是在实践中有效。【2】)

后者的好处是从全局最优的思路下进行剪枝,坏处是效率低、数据量少时易过拟合。

2.1 预剪枝

在构造决策树的同时进行剪枝。所有决策树的构建方法,都是在无法进一步降低熵的情况下才会停止创建分支的过程,为了避免过拟合,可以设定一个阈值,熵减小的数量小于这个阈值,即使还可以继续降低熵,也停止继续创建分支。但是这种方法实际中的效果并不好。【3】

2.2 后剪枝

REP的步骤:

1,从底到顶,试着删除某一个节点下的子树,给该节点最大概率的分类;2,如果删除后没有降低总体的准确率,则删除该节点的子树。3,然后往树的跟节点方向继续删除,直到都不能删除。

其它如Minimum Error Pruning(MEP),Critical Value Pruning(CVP),Optimal Pruning(OPP),Cost-Sensitive Decision Tree Pruning(CSDTP)、PEP等方法。【2】反正我没看,具体要用再看。

3,分类预测

通过上面的两步,已经确定了最终用于分类的决策树。或者你还在郁闷,有了这样的一颗树,又怎么进行分类呢??

实际上,这棵树从根节点到叶子的每一根树枝都有一个概率,然后不断地往叶子方向计算其概率,就可以得到每个叶子下的概率,而叶子对应的就是类别。

三。优缺点

优点:这个算法总的来说,还是基于一定的统计学意义,结合信息量的知识(当然啦,像贝叶斯等其他分类算法也都有这两点,而且也很偏重这两点)进行分类。这类算法不涉及迭代优化等,所以计算复杂度不高,效率快

这个算法其实也是有一个致命的缺点:只能对离散的特征进行处理,对连续特征效果不好(虽然连续的特征也能转变为离散的特征,但是决策树受这些处理的影响很大,分类效果就差了),此外,对于特征中离散值的个数也有一定的限制(其实主要是个数多了,每个值对应的数据量就少了),容易出现纯节点,影响特征选择的效果,最终影响分类的结果。

四。参考文章:

【1】http://blog.csdn.net/cyningsun/article/details/8735169

【2】数据挖掘十大经典算法 https://wizardforcel.gitbooks.io/dm-algo-top10/content/cart.html

【3】http://www.jianshu.com/p/794d08199e5e

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容