02-决策树

一.算法流程

构建决策树:

输入:训练集 $D = { (x_1,y_1),(x_2,y_2),...,(x_m,y_m) }$
    属性集 $A = { a_1,a_2,....,a_n }$
createTree(D,A)

if D 中样本全属于同一类C:
    标记当前节点node标记为C类叶子节点
    return C
else if A = 空 OR D中样本在A上取值相同:
    当前节点node标记为叶子节点,类别C为D中样本最多的类
    return C
else
    从A中选择最优属性划分a*
    划分数据集Di
    创建子节点
    for 每个划分的子集:
        createTree(Di,A/a*)

二.实现

我们的实验数据

判断一个生物是否是鱼:
labels = ['no surfacing', 'flippers', 'head']
dataset = [[0, 1, 1, 'yes'],
           [1, 1, 1, 'yes'],
           [1, 0, 1, 'yes'],
           [1, 1, 0, 'no'],
           [0, 0, 1, 'no'],
           [1, 1, 0, 'no'],
           [0, 0, 0, 'yes']]

寻找最优属性划分

算法流程中第8行提到了选择最有属性划分,那么怎么划分最优属性呢。划分属性的原则就是将无序的数据变得更有序。
  划分数据集之前和之后信息发生的变化称为信息增益,计算每个属性划分数据集的信息增益,信息增益最高的属性就是最好的划分属性。集合的信息度量方式是香农熵,熵(entropy)的定义是信息的期望值。对于根据某个属性做的分类,$x_i$表示其中一个被分类的一类数据则$x_i$的信息期望值为:
$$l(x_i)=-log_2 p(x_i)$$
  $p(x_i)$表示$x_i$出现的概率
   所有可能的类别的信息期望值就是熵:
  $$H = -\sum_{i=1}^n p(x_i)log_2p(x_i)$$
计算香农熵代码:
  这里featVec最后一项是分类,我们用labelcount记录每一个分类的出现个数
   labelcount是一个dict ,使用labelcount.get(curLabel,0)返回当前字典中curLabel的值(这里表示出现次数),第二个参数0表示如果字典中没有curLabel这个key则插入到字典中,默认值为0
  将所有分类出现的次数都记录到labelcount之后就可以遍历labelcount字典用出现次数计算概率,从而计算香农熵

def calShannonEnt(dataset):
    dataSize = len(dataset)
    labelCount = {}
    for featVec in dataset:
        curLabel = featVec[-1]
        labelCount[curLabel] = labelCount.get(curLabel, 0) + 1
        shannonEnt = 0.0
    for key in labelCount:
        prob = float(labelCount[key]) / dataSize
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

选择最优划分

首先计算划分前数据集的信息熵baseEntropy.
  遍历每一个属性,计算每一个属性划分数据集的信息增益

  featNum = len(dataset[0]-1)
     for i in range(featNum):

对于第i个属性划分之后,获取存在的所有属性值,统计这个属性存在的属性值,为了我们的到的属性值唯一,我们使用set来保存属性值

      featList = [X[i] for X in dataset]
      uniqueFeatValue = set(featList)

这时我们就可以通过属性值来划分子数据集,遍历属性axis所有可能的属性值, 将属性axis值为value的数据取出作为子数据集的元素
  同时计算根据这个属性划分数据集得到的信息增益
  注意计算子数据集的香农熵之后还要乘上这个子数据集的概率

       for value in uniqueFeatValue:
           subDataset = splitDataset(dataset, i, value)
           prob = float(len(subDataset)) / len(dataset)
           newEntropy += prob * calShannonEnt(subDataset)

划分数据集:
  将属性axis值为value的数据取出作为子数据集的元素
  数据加入到子数据集后,需要把原划分的属性标签去掉
  假设我们要得到axis == i的属性,属性值为v的子集
  遍历数据集的每一条数据记录 $Data_i = [ x_1,x_2,...,x_i,...x_n]$
  当$x_i=v$时,获取x_i前后的元素再连接起来就得到新的数据项${Data_i}_{new} = [ x_1,x_2,...,x_i-1,x_i+1,...x_n]$
  使用extend将x_i前后两个list
  extend作用是将两个list连接起来
  append的作用是向list添加一个元素

axis:需要划分的属性
value:类别
retDataset:返回dataset中属性axis为value的子集
def splitDataset(dataset, axis, value):
    retDataset = []
    for featVec in dataset:
        if featVec[axis] == value:
            retFeatVec = featVec[:axis]
            retFeatVec.extend(featVec[axis + 1:])
            retDataset.append(retFeatVec)
    return retDataset

构建决策树

构建决策树的函数creatTree是一个递归函数,输入为数据集和列表集,返回的是当前创建的节点,递归返回的条件是:
  1. 当前数据集中所有数据都属于同一类
  2. 只剩一条数据时
  3. 属性集为空
  else
  先选取最优划分属性,创建节点,节点名字为划分属性,然后在属性集中删除这个属性
  使用字典作为数的节点,这样dict的key可以作为当前节点名字,对应的value也用一个dict表示, value的字典保存子节点,这样层层潜逃就可以构成一个树.
  用于保存子节点的dict中,key保存的是当前划分属性的属性值,val为对应的子节点通过递归调用createTree得到

获取当前划分属性的所有属性值,用set做唯一储存

    featlist = [f[bestFeat] for f in dataset]
    uniqueFeatValue = set(featlist)

对于每一个属性值,属性值作为子节点dict的key,将createTree返回的节点作为val
这里调用splitDataset获得指定属性值的子数据集作为下一层createTree的数据集

    for value in uniqueFeatValue:
        subLabels = curLabels[:]
        curTreeNode[bestLabel][value] = createTree(
            splitDataset(dataset, bestFeat, value), subLabels)
 

分类

当都建好决策树后就可以用这个决策树来做分类了
  分类函数classify也是一个递归函数,根据输入的属性和属性值从决策树的根节点搜索,直到搜索到叶子节点
  我们可以用判断当前节点是不是字典类型来判断当前节点是否是叶子节点,如果是字典类型,则不是叶子节点,不是叶子节点就继续向下搜索
  否则返回当前类型

def classify(inTree,featLabel,featVec):
    label = inTree.keys()[0]
    featIndex = featLabel.index(label)
    childs = inTree[label]
    nextNode = childs.get(featVec[featIndex],'error')
    if type(nextNode) == type({}):
        result = classify(nextNode,featLabel,featVec)
    else:
        result = nextNode
    return result

构建决策树和分类的完整代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 【博客的主要内容主要是自己的学习笔记,并结合个人的理解,供各位在学习过程中参考,若有疑问,欢迎提出;若有侵权,请告...
    Paullu阅读 1,172评论 0 4
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,832评论 0 25
  • 翻译自analyticsvidhya 基于树的学习算法被认为是最好的和最常用的监督学习(supervised le...
    珞珈村下山阅读 5,947评论 1 19
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,598评论 18 139
  • 1,為什麼我每天都要發一篇日誌? 因為我做件很酷的事情,讓自己留下點值得回憶東西。 做自媒體,了解自己,理清自己的...
    鍾離別阅读 107评论 0 0