uniform机器学习极简入门7—机器学习入门概述

uniform机器学习极简入门这个系列已经介绍了6节课,大家对机器学习(统计学习)有了些了解(当然之前都是些基础),今天我们从宏观整体上介绍下什么是机器学习,以及目前机器学习的分类,包括我们后续会陆续和大家介绍的方向。有了这个宏观理解后,可以针对性的在实践中选择自己合适的场景方法,而不是盲目的用一个方法来套。

1 机器学习目标及分类

机器学习(也称为统计机器学习)是通过数据来构建概率统计模型,然后利用训练好的模型来预测和分析未知数据。

目前统计学习可以分为以下四类

  1. 无监督学习
  2. 半监督学习
  3. 有监督学习
  4. 强化学习

我们这个系列也会尽量把这四种方法对应的模型和理论都介绍下,前面几节其实就是围绕无监督学习展开的模型。
无监督模型表示数据完全无标记数据;半监督学习模型则有少量标记数据和大量未标记数据;有监督学习则是在有大量已表述数据下学习的模型。强化学习有些不太一样,他们的训练数据需要agent和environment不断交互中产生。

监督学习模型可以是概率模型也可以是非概率模型,由条件概率分布P(Y|X)或者决策函数y=f(x)表示。这类的学习方法应该是我们后续重点介绍的模型,因为在实际工程中,通过监督学习来解决问题的场景特别多。

强化学习近几年也再次火起来(因为alphaGo采用的模型就是深度强化学习模型),最近的人机游戏对决也是采用强化学习来训练的,强化学习也被认为是我们寻找通用人工智能的最有希望的方式,所以建议大家可以多多关注目前强化学习的一些新paper,我们后面也会详细介绍这里涉及到的一些模型。

统计机器学习有三要素(见李航老师的《统计学习方法》)

  1. 模型
    模型指的是我们采用的函数空间,可能是概率模型也可能是决策函数。

  2. 策略
    有了模型来表示,我们需要某种指标来告诉我们如何学习模型的参数,其实就是我们的损失函数了,一般损失函数有以下几种

  • 0-1损失函数
    L(Y, f(X))=1\ \ \ \ if\ f(X)\neq Y
    L(Y, f(X))=0\ \ \ \ if\ f(X) = Y
  • 平方损失函数
    L(Y, f(X))=[Y-f(X)]^2
  • 对数损失函数
    L(Y, f(X))=Ylog(f(X))+(1-Y)log(1-f(X)
    由1的模型我们可以得到我们假设的f(X)结构,然后根据策略,可以得到我们优化的目标
  1. 算法
    有了策略(优化目标),那我们只需要某种算法就可以来求解对应的模型参数了。其实这里问题就转换为了最优化问题。(后面我们会单独介绍一节,关于现有传统机器学习和深度学习涉及到的优化方法。)

2 模型衡量指标

模型训练的目标是为了对未知数据的分析,因此我们需要寻找某个指标来衡量这样的结果。

上面的损失函数是我们训练模型的目标,那又该怎么评价我们学习到的模型效果是否具有泛化能力?这里我们简单介绍几个方法:

  1. 准确率
    accuracy=\frac{1}{m}\sum_{i=1}^{m}I(y=f(x))
  2. 精准率和召回率

精准率 precision 检索出的信息中有多少是正确的信息。
召回率 recall 有多少有用的信息被检索出。

为了公式化表示上面这两个指标,我们一般会借助如下表格

真实\预测
TP FN
FP TN

precision=\frac{TP}{TP+FP}
recall=\frac{TP}{TP+FN}
我们的目标就是希望召回率和精准率尽可能高,另外还有个综合指标就是F1-score,一般我们定义如下
F1=\frac{2PR}{P+R}

  1. ROC
    很多机器学习是为测试样本产生一个实值或者概率预测,然后将这个预测值与某个阈值比较,如果大于该阈值则为正样本,否则负样本。
    ROC的定义同样也需要用到之前的表格,其横坐标和纵坐标定义如下

TPR=\frac{TP}{TP+FN}
FPR=\frac{FP}{FP+TN}

3 过拟合与欠拟合

模型训练目标就是把损失函数降到最低,是否这种评价指标在测试集合就一定最优呢?

假设我们有如下数据:


Data

我们需要进行拟合这些数据,假设我们采用多项式模型
y(x) = w_0 + w_1*x + w_2*x^2+ ...
=\sum_{i=0}^{n}w_i*x^i
这里存在一个参数n究竟该选择多少?
我们分别选择n=1, 3, 10进行拟合得到如下图

Fit

  1. n=1
    从图中看出,仍然存在很多点偏离较大,这种情况下,属于欠拟合。判断欠拟合的方法就是该模型在训练集合上的表现就很差,预测能力较弱,此时需要增加模型的复杂度。

  2. n=3
    从图中可以看出,该模型复杂度对Data的拟合具有较好的结果

  3. n=10
    我们看到图像在未知数据区间的表现很奇怪,有个上扬的趋势,这就是对未知数据的预测,可见效果并不是很好,虽然它对已知数据拟合效果很好。此时被称为过拟合,模型往往是由于过于复杂,过分拟合了训练集合,而缺失了泛化能力。

一般模型复杂度和预测误差存在如下曲线:


模型复杂度和预测误差关系

模型越复杂,往往能够降低训练集合的误差,但是测试集合的误差可能会反而增加。模型需要符合奥卡姆剃刀原理。

所有可选择的模型中,能够很好地解释已知数据并且模型越简单越好。

如何限制模型的复杂度?可以采用正则化的方法来惩罚模型复杂度。
还记得我们在刚开始介绍最大似然法时候有提到的MAP(最大后验概率),其实先概率就是一种正则化的方法。

所以通用的损失函数一般定义如下
J(\theta)=\frac{1}{n}\sum_{i=1}^{n}L(y^{(i)},f(x^{(i)};\theta)) + \lambda \Omega(\theta)
第一项表示经验损失(训练集合上的拟合误差);第二项表示模型复杂度的惩罚项。

在深度学习中,有个训练的trick叫做early stop,就是不希望模型过分拟合训练集合,而是更多让模型拥有泛化能力。

另外,在训练中建议采用交叉验证的方法,例如s折交叉验证。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,980评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,422评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,130评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,553评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,408评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,326评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,720评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,373评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,678评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,722评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,486评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,335评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,738评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,283评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,692评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,893评论 2 335

推荐阅读更多精彩内容