决策树之C4.5算法

概要

  • 关于决策树
    决策树其实是一种分类算法,目标是将具有P个维度特征的样本n划分到c个类别中: c = f(n); 通过这种分类的过程表示为一棵树,每次通过选择一个特征pi来进行分叉。
    每个叶节点对应着一个分类,非叶节点对应着在每个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。

构建决策树的核心问题: 在每一步如何选择适当的属性对样本进行拆分。

  • 不同的决策树算法有着不同的特征选择方案
    1、ID3: 信息增益
    2、C4.5: 信息增益率
    3、CART: gini系数(基尼系数)
算法 描述 适用
ID3 在决策树的各级节点上,使用信息增益方法作为属性选择标准,来确定生成每个节点时所采用的合适属性 适用于离散的描述属性
C4.5 使用信息增益率来选择节点属性,并克服ID3算法的不足 即适用离散的描述属性呦适用连续的描述属性
CART 是一种有效的非参数分类和回归方法,通过构建树、修建树、评估树来构建二叉树 当终结点为连续属性时该树为回归树;当终节点为分类变量时,即为分类树

实例

决策树-分类.png

数据总结: 属性数据4个 = {天气,温度,湿度,风速}
类别2个 = {进行,取消}
1、类型信息熵
定义:所有样本中各种类别出现的不确定性之和,根据熵的概念,熵越大,不确定性就越大。需要研究清楚信息就越多。



2、每个属性的信息熵
每个属性信息熵相当于一种条件熵。表示在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,该属性拥有的样本类型越不“纯”。



3、信息增益
信息增益 = 熵 - 条件熵(信息类别熵 - 属性信息熵);表示信息不确定性减少的程度。若是一个属性的信息增益越大,就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性。当然,选择该属性就可以更快更好的完成分类目标。
信息增益的ID3算法的特征选择指标

4.属性分裂信息度量
通过分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,而这些信息称之为属性的内在信息。

信息增益率 = 信息增益 / 内存信息,导致属性的重要性随内在信息的增大而减小(换句话说:若是某个属性本身的不确定性很大,那就不倾向选取它)。是对单纯使用信息增益有所补偿



5、信息增益率
IGR(天气) = Gain(天气) / H(天气) = 0.246 / 1.577 = 0.155
IGR(温度) = Gain(温度) / H(温度) = 0.029 / 1.556 = 0.0186
IGR(湿度) = Gain(湿度) / H(湿度) = 0.151 / 1.0 = 0.151
IGR(风速) = Gain(风速) / H(风速) = 0.048 / 0.985 = 0.048
信息增益率

结论

后续

信息熵:体现的是在整个样本数据集中,结果类型或条件属性在对应的结果集中单一事件出现不确定性的概率;而这个不确定性的结果和对应的结果类型或条件属性存在log的联系;信息的不确定性越大,熵的值也就越大; 针对的是一元模型的概率
-(同一结果类型记录的个数) / (整个样本数据结果类型记录的总数) * log2((同一结果类型记录的个数) / (整个样本数据结果类型记录的总数))
条件熵: 通过多元模型的方式来减少一元模型中不确定性,或者说降低对应的熵,越低意味着信息的不确定性就越小。
条件熵 = -某个条件属性某个类型/总结果记录数 * 该条件属性某个类型的不同细分类的信息熵 之和
该条件属性某个类型的不同细分类的信息熵 = 同个属性不同内容类型相对结果类型的信息熵的之和

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容

  • 关于决策树 决策树其实是一种分类算法,目标是将具有P个维度特征的样本n划分到c个类别中: c = f(n); 通过...
    夜迷走阅读 844评论 0 1
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,826评论 0 25
  • 转自算法杂货铺--决策树决策树和随机森林学习笔记-欢迎补充 http://www.cnblogs.com/fion...
    明翼阅读 10,700评论 1 6
  • 分类与预测 餐饮企业经常会碰到下面的问题: 如何预测未来一段时间内,哪些顾客会流失,哪些顾客最有可能成为VIP客户...
    Skye_kh阅读 6,288评论 3 15
  • 概念 Physijs建立在ammo.js之上 使用 五步 导入physi.js 配置Physijs.scripts...
    Doter阅读 6,661评论 0 5