概念学习和一般到特殊序

定义

概念学习是指从有关某个布尔函数的输入输出训练样例中,推断出该布尔函数

任务描述

  • 实例集合(X)
  • 实例集合上的目标函数(C)
  • 候选假设的集合(H)
  • 训练样例集合(D)

机器学习任的任务是在整个实例集合X上确定与目标概念c相同的假设h

术语定义

  1. 概念定义在一个实例集合之上,该集合表示为X。
  2. 待学习的概念或函数称为目标概念。
  3. 在学习目标概念时, 必须提供一套训练样例, 每个样例为X中的一个实例x以及它的目标概念值c(x),对c(x)=1的实例被称之为正例或目标概念成员,相反对于c(x)=0的实例称为反例或非目标概念成员。通常用序偶<x, c(x)>来描述训练样例,表示包含了实例x和目标概念值c(x)。
  4. 一旦给定目标概念c的训练样例集, 学习器面临的问题就是假设或者估计c。H表示所有可能假设的集合,H确定目标概念考虑的范围。通常H依设计者所选择的假设表示而定。H中假设h表示X上定义的布尔函数,即h:X->{0, 1}。机器学习的目标就是寻找一个假设h,使对于X中的所有x, h(x)=c(x)。

归纳学习假设

机器学习任的任务是在整个实例集合X上确定与目标概念c相同的假设h,然而我们对于c仅有的信息只是它在训练样例上的值,因此,归纳学习算法最多只能保证输出的假设能与训练样例相拟合。如果没有更多的信息,我们只能假定,对未见实例最好的假设就是与训练数据最佳你和的假设,这是归纳学习的一个基本假定。

任一假设如果在足够大的训练样例集中很好的逼近目标函数,它也能在未见实例中很好的逼近目标函数

作为搜索的概念学习

概念学习可以看做是一个搜索的过程,范围是假设的表示所隐含定义的整个空间

如果把学习看作是一个搜索为题,那么自然,对于学习算法的研究需要考查假设空间搜索的不同策略,特别引起我们兴趣的算法应该能有效地搜索非常大或无限的假设空间,以找到最佳拟合训练数据的假设。

假设的一般到特殊序

对X中任意实例x和H中任意假设h, 我们说x满足h当且仅当h(x)=1

任何被h1划分为正例的实例都会被h2划分为正例,我们就说h2比h1更一般

** more-general-than-or-equal-to的定义如下:**
令hj和hk为在X上定义的布尔函数。定义more-general-than-or-equal-to关系(≥g )。hjghk当且仅当:
(∀x ∈ X)[(hk(x)=1)->(hj(x)=1)]

备注:严格一般为上面定义去除等于

Find-S: 寻找极大特殊假设

  1. 将h初始化为H中最特数的假设
  2. 对每个正例x
  • 对h的每个属性约束ai, 如果x满足ai,那么不做任何事,否则,将h中ai替换为x满足的近邻的更一般约束
  1. 输出假设h

Find-S算法存在的一些未解决的问题

  • 学习过程是否手链到了正确的目标概念?虽然Find-S找到了与训练数据一致的假设,但没办法确定它否找到了唯一合适的假设,或是否还有其他可能的假设。我们希望算法知道它是否收敛到了目标概念,如果不能,至少要描述出这种不确定性。
  • 为什么要用最特殊的假设。如果有多个与训练样例一致的假设,Find-S只能找出最特殊的。为什么我们偏好最特殊的假设,而不选最一般的假设,或者一般程度位于两者之间的某个假设。
  • 训练样例是否相互一致?在多数实际的学习问题中,训练数据中常会出现某些错误或者噪声,这样的不一致的训练集会严重破坏Find-S算法,因为它忽略了所有的反例。我们期望的算法至少能检测出训练数据的不一致性,并且最好能容纳这样的错误。
  • 如果有多个极大特数假设怎么办?在一些假设空间可能有多个极大特数假设。这种情况下,Find-S必须被扩展以允许其在选择怎样泛华假设的路径上回溯,以容纳目标假设位于偏序结构的另一分支上的可能性。更进一步,我们可以定义一个不存在极大特殊假设的假设空间,然而这是一个更理论性的问题而非实践问题。

变形空间和候选消除算法

候选消除算法中,输出的是与训练样例一致的所有假设的集合。且候选消除算法在描述这一集合时不需要明确列举其所有成员,这主要归功于more-general-than偏序结构,在这里需要维护一个一致假设集合的简洁表示,然后在遇到新的训练样例时逐步精化这一表示。

定义:一个假设h与训练样例集合D一致(consistent),当且仅当对D中的每个样例<x,c(x)>, h(x)=c(x)

** Consistent(h,D) Ξ (∀ <x, c(x)> ∈ D ) h(x) = c(x)**
一致与满足的区别:一个样例x在h(x)=1时称为满足假设h,不论x是目标概念的正例还是反例。然而,这一样例是否与h一致与目标概念有关,即是否h(x) = c(x)

定义:关于假设空间H与训练样例集D的变型空间(version space),标记为VSH,D,是H中与训练样例D一致的所有假设构成的子集。

列表后消除算法

  1. 变型空间VersionSpace<-包含H中所有的假设列表
  1. 对每个训练样例<x, c(x)>,从变型空间中移除所有h(x) ≠ c(x)的假设h
  2. 输出VersionSpace中的假设列表

候选消除算法

候选消除算法与上面的列表后消除算法遵循同样的原则。然而,它

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容