机器学习之旅—决策树(1)

dt_cover.png
dt_01.jpg

决策树(Decisino Tree)

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

前言

我们将讨论可以用于分类回归任务的简单、非线性的模型——决策树。个人认为决策树相对于其他机器学习模型更容易理解,符合我们人类思考和对事物进行分类判断的逻辑。我们在现实生活中就是这样一步一步做出决策的。例如找对象、找工作都会不自觉用到决策树算法来做出决定我们的决定。有人可能认为现在是深度学习的天下,决策树是不是已经过时了没有立足之地了。虽然在某些应用已经打上深度神经网的标签,但是在一些领域中可能更适合选择决策树而非深度神经网模型。

决策树

dt_011.jpeg


决策树是一个非线性分类器,给出以一种分割数据的规则来将数据切分为 和 两份数据。既然这里提到了线性和非线性模型,我们简单介绍一下什么是线性模型和什么是非线性模型,以及两者的区别。
dt_03.jpg

线性模型

在统计意义上,如果一个回归等式是线性的,其参数就必须也是线性的。如果相对于参数是线性,那么即使性对于样本变量的特征是二次方或者多次方,这个回归模型也是线性的。
y = \theta_0 + \theta_1x_1 + \theta_2x_2^2

非线性模型

最简单的判断一个模型是不是非线性,就是关注非线性本身,判断其参数是不是非线性的。
y = \theta_0 + \theta_1 x_1 + \theta_2^2 x_2

  • x_1x_2 不是独立,在不同区域内 x_1x_2 关系不同。

线性模型和非线性模型的区别

在机器学习的回归问题中,线性模型非线性模型都可以去对曲线进行建模,所有有许多人误认为线性模型无法对曲线进行建模。其实,线性模型和非线性模型的区别并不在于能不能去拟合曲线。

  1. 线性模型可以用曲线拟合样本,但是分类的决策边界一定是直线(如 logistics 模型)
  2. 区分是否为线性模型,主要是看一个乘法式子中自变量 x 前的系数 \theta ,应该是说 x 只被一个 \theta 影响,那么此模型为线性模型。
  3. 画出 yx 是曲线关系,但是他们是线性模型,因为 theta_1x_1 中可以观察到 x_1 只被一个 w_1 影响
    y = \frac{1}{e^{(\theta_0,+ \theta_1x_1 + \theta_2x_2)}}
  4. 当(如下面模型中) x_1 不仅仅被参数\theta_1 影响,而且还被\theta_5 影响,自变量 x 被两个以上的参数影响,那么模型就是非线性模型
    y = \frac{1}{1 + \theta_5 e^{(\theta_0,+ \theta_1x_1 + \theta_2x_2)}}
dt_08.jpg

看一个例子

  1. 看待遇
  2. 看是否双休
  3. 看是否出差
  4. 看是否
  5. 看是否有发展
    通过系列问题我们衡量最终结果是去还是不去这家公司。这系列问题就是

决策树的结构

dt_09.jpg

决策树算法是用树状结构表示数据分类的结果

  • 根节点(root node)
  • 非叶子节点(internal node)
  • 叶子节点(leaf node)每一个叶子节点都有一个分类值
  • 分支(branch)


    dt_07.jpg

在开始之前,我们看一些重要概念以及公式推导。

信息熵

熵概念最早是在物理热力学中提出概念后来也被在统计学中使用,表示提出了信息熵的概念,用以度量信息的不确定性。度量数据的纯度的指标这里用信息熵。一个事件发生概率与这个事件信息的关联,完全确定的也就是一定会发生,那么信息就会为 0。既然我们知道信息熵和概率的关系我们下面来推导一下信息熵计算公式
H(x) H(y) 表示事件发生不确定性,也就是事件信息熵,他们分别表示x 和 y 的信息熵。

例如说太阳从东方升起那么这句话就是信息量H(x)为 0 的话,这里信息量是指事件本身,也就是小概率发生了那么他信息量就是很大。那么也就是说概率越大其携带的信息量就越少。

dt_10.jpg

我们通过下面实际例子来说说信息熵,下面有 A 和 B 两个集合分别是不同类别的元素,在 A集合包含各种不同种类水果的元素,而相对于 A 集合 B 集合包含了属于较少类别的元素。

分类

A \{x_{apple},x_{banana},x_{strawberry},x_{banana},x_{orange} \dots x_{grape}, x_{orange} \}
在 A 集合中有属于 banana apple straberry orange grape 等不同类别的元素
B \{x_{apple},x_{banana},x_{apple},x_{banana} \dots ,x_{banana} ,x_{banana} \}
而在 B 集合中仅包含较少类别的水果

不难看出 A 集合和 B 集合,A 集合中种类中水果品种类别出现比较多,说明 A 集合比 B 集合的信息熵大。也就是所有 A 集合类别比较高。
下面图为-ln(x)

屏幕快照 2019-11-10 下午4.56.16.png

ln(x) 是增函数,那么 -ln(x) 就是一个减函数。所有在 x = 1 处 -ln(x) 为 0 而在 x = 0 时候 -ln(x) 却是无穷大

下面公式就是信息熵的公式

  • 在离散情况下信息熵公式
    H(x) = -\sum_{i=1}^n P(x_i) \log P(x_i)

  • 在连续函数情况下信息熵的公式
    H(P) = - \int p(x) lnp(x) dx

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容