【机器学习】(一)机器学习基础

基本概念

机器学习(Machine Learning)

机器学习研究的内容是关于在计算机上从数据/经验(data/experience)中产生模型(model)的算法,即学习算法(learning algorithm)。

Mitchell于1997年给出的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

基本术语

  • 数据集(data set):数据的集合,数据是若干条属性与其取值,记录关于对一个事件或对象的描述
  • 示例(instance)/样本(sample):数据集中的每一条数据
  • 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space)/样本空间(sample space)/输入空间(input space)
  • 特征向量(feature vector):属性空间中任何一点所对应的向量
  • 标记(lable):表示示例结果的信息
  • 样例(example):带有标记的信息示例
  • 标记空间(lable space)/输出空间(output space):所有的标签的集合
  • 测试样本(testing sample):用于对学习模型进行测试的样本数据

一般地,令 D={x1, x2, …, xm} 表示包含 m 个示例的数据集,每个示例由 d 个属性描述,则每个示例 xi=(xi1, xi2, …, xid) 是 d 维样本空间 X 中的一个向量,xi∈X,其中 xij 是 xi 在第 j 个属性上的取值,d 称为样本 xi 的维数(dimensionality)。用(xi,yi)表示第i个样例及其标签yi,yi∈Y。

  • 泛化(generalization):将学习得到的模型应用于新的数据集(测试集)的能力成为泛化能力

通常假设样本空间中全体样本服从一个未知分布(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distributed,简称iid)。一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

机器学习的分类

基于学习任务

  • 分类(classification):预测值是离散的
    • 二分类(binary classification):预测值只有两个类别,通常将其中一个成为正类(positive class),另一个成为反类/负类(negative class)
    • 多分类(mutil-class classification):预测值是多个离散的类别
  • 回归(regression):预测值是连续值,其标记空间为实数集
  • 聚类(clustering):将训练集中的数据分成若干个簇,通常情况下这种学习的数据集是无标签的

基于训练数据是否拥有标签

  • 监督学习(supervised learning):训练数据有标签,比如分类和回归
  • 无监督学习(unsupervised learning):训练数据无标签,比如聚类

假设空间

我们把学习过程看作一个在所有假设(hypothesis)组成的空间(假设空间(hypothesis space))中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。

现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,称之为版本空间(version space)

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias),简称为偏好。

任何一个有效的机器学习算法必有其归纳偏好。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。

奥卡姆剃刀原则(Occam's razor)

奥卡姆剃刀原则称“若有多个假设与观察一致,则选最简单的那个”。比如我们通过训练得到有两条可以描述训练样本的曲线,平滑的A曲线可能意味着更加简单。

image

没有免费的午餐定理(No Free Lunch Theorem,NFL)

没有免费的午餐定理指机器学习的模型总误差与学习算法无关,即学习算法的期望性能相同

image

但是显然NFL定理是基于一个前提的:所有问题出现的机会相同、或所有问题同等重要。但实际情形并不是这样。

NFL的意义在于让我们更加清楚的认识到,脱离具体问题空泛地比较学习算法的好坏毫无意义

学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用

NFL 定理的简单证明过程

image

全文参考:周志华 著 《机器学习》


转载请注明出处,本文永久更新链接:小天才的杂货铺-个人博客

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 机器学习 经验 数据 数据中产生模型model 的算法 学习算法 learning algorithm 数据集 d...
    时待吾阅读 3,956评论 0 3
  • 》拟合训练数据和寻找能够泛化到新数据的参数有哪些不同。 》如何使用额外的数据设置超参数。 》机器学习本质上属于应用...
    N89757阅读 2,110评论 0 0
  • 为了便于理解,假设我们收集了一批关于西瓜的数据,如(色泽=青绿;根蒂=硬挺;敲声=浊响),(色泽=乌黑;根蒂=稍蜷...
    Action1224阅读 781评论 0 0
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,484评论 0 6
  • 这是机器学习笔记的第一篇,主要介绍了机器学习的一些常用术语和基础知识由于水平有限,有时候笔记显得像是板书一样把所有...
    EL33阅读 591评论 0 0