分类练习题1

1.为四个布尔属性A,B,C,D的奇偶函数画一棵完全决策树。可以简化该决策树吗?

Figure 4.1.四个布尔属性奇偶函数的决策树。

不能简化该决策树。

2.考虑下表中二元分类问题的训练样本。

Data set for Exercise 2.


a.计算整个训练样本集的Gini指标值。

1-2*0.5^2=0.5

b.计算属性顾客ID的Gini指标值。

每个客户ID值的基尼为0。因此,客户ID的总体基尼为0。

c.计算属性性别的Gini值。

男性的基尼为1-0.4^2-0.6^2=0.48。女性的基尼也是0.48。因此,总体性别基尼为0.48×0.5+0.48×0.5=0.48。

d.计算使用多路划分属性车型的gini值。

家用车基尼为0.375,跑车为0,豪华车为0.2188。总基尼为0.1625。

e.计算使用多路划分属性衬衣尺码的Gini指标值。

小:1-0.4^2-0.6^2=0.48

中:1-(3/7)^2-(4/7)^2=0.4898

大:1-2*0.5^2=0.5

加大:1-2*0.5^2=0.5

总Gini:0.48*0.25+0.4898*7/20+0.5*0.2+0.5*0.2=0.4914

f.哪个属性更好,性别、车型还是衬衣尺码?

车型,因为它在三个属性中基尼最低。

g.解释为什么属性顾客ID的Gini值最低,但却不能作为属性测试条件。

由于新客户被分配给新客户id,因此该属性没有预测能力。

3.已知二元分类问题的样本集。

Data set for Exercise 3

a.整个训练样本集关于类属性的熵是多少?这个训练实例集合相对于正类的熵是多少?

有4个正号和5个负号。因此,P(+)=4/9,P(-)=5/9。训练实例的熵为−4/9log2(4/9)–5/9log2(5/9)=0.9911。

b.关于这些训练样本,a1和a2的信息增益是多少?

对于属性a1,相应的计数和概率
a1的熵

因此,a1的信息增益为0.9911−0.7616=0.2294。

对于属性a2,相应的计数和概率
a2的熵

因此,a1的信息增益为0.9911− 0.9839 = 0.0072。

c.对于连续属性a3,计算所有可能的划分的信息熵增益。

a3的最佳分割发生在分割点等于2处。

d.根据信息增益,哪个是最佳划分(a1,a2,a3)?

a1.

e.根据分类差错率,哪个是最佳划分(a1,a2)?

对于属性a1:错误率=2/9。

对于属性a2:错误率=4/9。

因此,根据错误率,a1产生最佳分割.

f.根据Gini指标,那个是最佳划分(a1,a2)?

对于属性a1,基尼指标是
对于属性a2,基尼指标是

由于a1的基尼指数较小,它产生了更好的分割。

4.证明:将结点划分为更小的后继结点后,结点熵不再会增加。

证明:设Y={y1,y2,···,Yc}表示c类,X={x1,x2,···,Xk}表示属性X的k属性值。在X上拆分结点之前,熵为:

其中,由全概率公式P(y_{j})=\sum\nolimits_{i=1}^kP(x_{i} ,y_{j} )

在X上分割后,每个子节点X=x_{i} 的熵是:

其中p(yj|xi)是X=xi的例子,属于yj类。

在X上分割后的熵由子节点的加权熵给出:

其中我们使用了概率论中的一个已知事实,即P(x_{i} ,y_{j} )=P(y_{j} |x_{i} )\times P(x_{i} )。注意E(Y | X)也被称为Y给定X的条件熵。

为了回答这个问题,我们需要证明E(Y | X)≤E(Y)。我们用方程4.1和4.3计算分裂后和分裂前的熵之差,即E(Y | X)-E(Y):

为了证明方程4.4是非正的,我们使用对数函数的以下性质:
\sum\nolimits_{k=1}^da_{k} =1为条件。这个性质是一个更一般的关于凸函数(包括对数函数)的定理的特例,称为Jensen不等式。

通过应用Jensen不等式,方程4.4可以有如下界:

因为E(Y|X)-E(Y)≤0,所以在一个属性上分割后熵不会增加。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,829评论 0 25
  •   决策树(Decision Tree)是一种基本的分类与回归方法,其模型呈树状结构,在分类问题中,表示基于特征对...
    殉道者之花火阅读 4,496评论 2 2
  • 下文介绍学习决策树的过程,我们通过例子来更好地理解决策树。 决策树是什么,是一种基本的分类与回归的方法。分类决策树...
    小灰灰besty阅读 4,184评论 4 10
  • 4.1 基本流程 决策树:基于树结构进行分类决策的机器学习方法。一颗决策树一般包含一个根结点、若干个内部结点和若干...
    SibyLtuI阅读 579评论 0 0
  • CNBLUEone阅读 135评论 0 0