学习决策树

1决策树是什么？

百度百科：

决策树是一种数据挖掘分类算法、是直观运用概率分析的一种图解法、是一个预测模型。

由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

我的理解就是：一种寻找最优方案的画图法。

前提是要知道所有可能的方案，以及每种方案的收益与发生概率。这样才能算出每种方案的理论期望值，对比各个方案，然后找到最优方案。

为了学习决策树我又看了一篇文献：《决策树（哈佛大学笔记）》

这个比较易懂，只是字多了点。

她举了个例子

说是要卖椅子，

当前情况是：每年销售额 20万--45万（这个数据之后并没有用）

这时有一个投资新设备的机会

投资新设备成本是30万

投资之后

每把椅子获利100元

市场好：能卖出8000个共获利80万

市场不好：能卖出1000个，获利10万

用概率树来表示：

然后指出，估计市场好的几率是0.4，相反，不景气的几率为0.6

那么投资的预期平均现金流为：

这时，增加了一些新元素。

说

在市场好的时候

能产品能上电视销售额将会达到：320万（概率0.1）

上不了电视则只有：80万（概率0.9）

市场不好的时候

上电视销售额为40万（概率为0.01%）

上不了电视则只有：10万（概率0.99）

现在，概率树为：

然后4种情况各自的平均期望值为：

最后，4个期望值的和减去投资成本，得到这个投资机会的价值$477,800 - $300,000 =$177,800

现在，老板需要一家调查机构来告诉他们市场是好是坏，不过需要花50000元来请他们调查。

老板不知道值不值得花这50K。

从这儿开始，作者开始教我们如何画决策树：

1 列出备选方案：

从第一个决定开始，这里的话，就是决定到底要不要花钱请人调查：

成本：调查为50，不调查为0

接着，从顶端的分支开始画。如果调查，会发生哪些情况。

因为调查的结果不是老板能掌控的，具有不确定性，因此用圆圈（机会节点）来标记。

继续，在每一个调查结果中，老板会决定购买设备，或者放弃购买：

市场景气的时候，花费30K，将会收到80K收入，不投资，则为0；

市场不景气的时候，花费30K，将会收到10K收入，不头则，则为0；

现在，调查部分的决策树画完了，下面补全不进行调查部分的决策树：

老板不打算花钱做调查，因此老板是在不确定市场景气与否的前提下做出决定，那么就仅仅是：

投资OR不投资。

投资的话，分市场景气和不景气两种，分别收入80K,10K；

不投资的话，也分市场景气和不景气两种（严谨，不能因为0，就可以省略），不过收入都为0；

2 量化不确定性

好，现在此刻我们已经把所有备选方案列好了，下面，我们要量化决策树中的每个分支的不确定性。

首先确定概率，在圆圈（机会节点）的后面的分支上标注概率：

调查报告显示，市场景气的概率是0.4，不景气的概率是0.6，所以在相应的分支上标注好概率，同时呢，为了方便查询，我们在重要节点上分别标注:A、B、C、D。

3 指定目标

一般来说，目标就是选择最优的方案，而最有的方案通常都是做出货币价值最高的决策。

4解决决策树

从结果节点开始逆向操作：

在决策节点A，老板需要决定是花50K进行投资，还是不投资。

投资的话 80K-30K=50K，将会产生50K 的现金流，不投资则为0，所以投资，是最优决策：

在决策节点B，对比权衡投资于不投资的利弊，老板选择不投资：

因为：收入的10K-投资成本的30K=-20K，而不投资为0，因此老板在B这个决策节点选择不投资。

接着，老板考虑在决策点C该做什么决定。因为她不知道自己决策的后果，所以，他需要对比决策点C后面的每个结果分支，并选择最预期货币价值最好的结果：

投资:预期货币价值 0.40x800，000 + 0.60x100，000 - 30 = 8万

不投资: 预期货币价值 0.40 x 0 + 0 x 0 - 0 = 0

因为投资（预期货币价值）>不投资（预期货币价值），所以她会选择投资。

现在，我们知道老板做出了A\B\C三个决策，于是我们可以缩小决策树：

现在做最后一个决策，D：

对比两条路径的预期货币价值做出决定。

第一条--调查的路径：

调查之后的预期现金流为：市场景气收益的50万×市场景气的概率0.4+市场不景气的收益0×市场不景气的概率0.6=20万，再减去调查成本5万，最后等于15万。

调查后的预期现金流为15万。

现在看第二条路径---不调查：

不调查产生的预期货币价值为8万

15>8，因此老板最终会做出花钱请人调查，并且在市场景气的时候进行投资这条决策。

总结：

分三步建立决策树：

1列出备选方案

2量化不确定性

3 指定目标

最后解决决策树：

1从结果开始，计算每个决策节点后面的结果的预期货币价值，做出最优的决策

over。

之后我又看了一篇文章---《白话一下什么是决策树模型》

http://www.itongji.cn/article/111429252013.html

开头，作者以CS为例，记录了玩家的4条数据

得出，条件的不同，会导致行为的不同这个结论。

然后作者将数据分为两块：

1是X，代表条件

2是Y，代表结果

在这个例子里，条件和结果都不只一个

条件是{武器类型、子弹数量、血量}

结果是{战斗、逃避}

然后作者说道建立决策树的目的是找到最合适的映射关系：

Y=F(X)

在这里就是说，武器类型、子弹数量，以及血量之间的关系将会决定结果，决定是战斗还是逃避。

同时作者还说，条件有优先级高下之分。对结果的影响也就有高矮之分。

接着，作者引入了信息论中的”熵“这个概念，它的作用是计算信息的混乱程度。

说着，作者将各个条件中的元素都求了个熵出来，

这还没完，要想得到条件的优先级，还要计算一个叫做信息增量的东西，它可以代表优先级，值与优先级成正比。

利用熵来求信息增量的公式：

Gain(Sample,Action) = E(sample) - sum(|Sample(v)|/Sample * E(Sample(v)))

over，这就是这篇文章的主要内容。

问题1：

虽然我知道公式是：E = sum(-p(I)*log(p(I)))，I=1:N，N为多少种结果

但是我无法理解这个式子是怎么写出来的：

E(机枪) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1

问题2：

这个我也不懂怎么写出来的。

“Gain(武器类型) = E(S) - (2/4)*E(机枪) - (2/4)*E(小刀) = 1 - (2/4)*1 - (2/4)*1 = 0“这个式子的理解。

公式：

Gain(Sample,Action) = E(sample) - sum(|Sample(v)|/Sample * E(Sample(v)))

至此，对这篇文章的理解结束。

2它什么样？

决策树就是由：方块（决策节点）、圆圈（机会阶段）、三角（结果）和分支线所组成。

用来寻找具价值方案的一种画图画。

使用决策树有4个步骤：

1列出所有可能的备选方案，画出每种方案会导致的结果

2量化不确定性，也就是确定每个方案的概率

3明确你的目标，一般来说就是追求最优货币价值的决策

4从结果逆向操作，计算出每种结果的期望值，然后对比各个结果的期望值，选出最优方案。

3它有什么用？

做决策之前，使用它，可以对比出每种方案的期望值，以此来找到最优方案。

4我如何利用它？

我一切量化的决策都可以使用它。

最后编辑于：2017.11.27 00:14:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

学习决策树

推荐阅读更多精彩内容