机器学习技法--SVM的对偶问题

本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第二章的内容,主要介绍了Hard Margin SVM Dual的基本概念和求解方法、支撑向量的几何含义等,文中的图片都是截取自在线课程的讲义。
欢迎到我的博客跟踪最新的内容变化。
如果有任何错误或者建议,欢迎指出,感激不尽!


对偶问题的动机

原来的SVM如果要进行非线性变换,需要在转换后的Z空间(假设为d~维度)内进行linear SVM的求解,则在Z空间里的线性分类对应到原来的X空间可能就是一个non-linear的复杂边界。

问题:Z空间的QP问题有d+1个变量、N个约束。如果d非常大甚至无穷大,就很难甚至不可能求解。

目标:让SVM模型的求解不再依赖转换后的空间维度d~,以能够使用非常多的、非常复杂的特征转换。

将original问题转换为dual(对偶)问题,该问题与原问题等价即可。

基本工具: Lagrange Multipliers

将Lagrange Multipliers当做变量求解,SVM中的每一个条件都会对应一个Lagrange Multiplier,所以共有N个变量。

注意:在SVM的文献中通常把Lagrange Multipliers的λ叫做α。

出发点

将有约束优化问题转换为无约束的优化问题。

原始问题:

定义Lagrange Function:

则原始问题等价于

如何证明两个问题的解一样?

考虑两种情况:

  • 如果某个(b,W)不满足原始问题的N个条件之一,即某个1-yn(W’Zn+b)>0,则内部的Max操作会将αn推向无穷大,在min操作中会被淘汰。
  • 如果某个(b,W)满足原始问题的所有约束,则内部Max将所有的αi都推向0,即内部的max结果就是目标的1/2W’W的值,在外部的min操作中就会取得满足条件的(b,W)中目标函数最小的组合,和原始问题一样。

本质上就是把条件藏在了max操作里面,不满足条件的(b,W)一定不会被选择。

现在我们有了新的问题,它有哪些性质呢?

对于任何确定的α'【满足每一个元素α'n>=0】,则有

因为对于某一个(b,W),内部的max(L)始终大于等于L,则左边的最低点也一定大于等于右边的最低点。
简单地说,因为max>=any。

因为对于任何α'都有上式成立,所以

因为最大的是任意的α'中的某一个。

观察发现,只不过是把min和max操作交换了顺序,称该问题为Lagrange对偶问题。

只要我们解决了Lagrange Dual Problem,就得到了original problem的一个下限。

对偶性的强弱

  • '>=':弱对偶性(weak duality)
  • '=': 强对偶性(strong duality)

由最优化理论可得:
对于QP问题,如果满足:

  1. 原始问题是凸型的 convex primal
  2. 原始问题是有解的(如果Φ转换后数据点是线性可分的,则成立) feasible primal
  3. 线性约束条件
    称为 '条件资格' (constraint qualification)。

则对偶问题是强对偶问题,即存在原始-对偶最优解(b,W,α)在两侧都能最优。

化简对偶问题

inner problem:里面的问题,即min操作,是没有条件约束的,因此在最优点上,满足:

因此,加上该条件的最优解不变。

加上该条件,可以把变量b消去。

同理,对W进行类似的处理:

把最优解的条件加在对偶问题上:

求解b和W

现在最佳化问题只有变量α了,其他变量b和W根据和α的关系被α所表示。
求得α后,再根据这些关系求出b和W。

这些关系,我们一般叫做KKT最优条件(KKT Optimality Conditions)
KKT是三个做最优化的研究者的名字首字母(Karush-Kuhn-Tucker)。

如果原始-对偶最优解(b,W,α):

其中第4个条件,一般称为互补松弛条件(complementary slackness)

以上的推导说明KKT条件是最优解的必要条件[necessary],但也可以证明对于我们的问题来说,它也是充分的[sufficient]。

因此我们可以利用KKT条件根据最优的α来求解(b,W)。

Standard Hard-Margin SVM dual

再做一些微小的改写:

该问题称为“标准硬边界SVM的对偶问题”。

该问题仍然是一个QP凸问题,有N个变量(α1..N),N+1个条件(一个=0,N个>=0)。

仍然使用QP Solver求解。

QP系数

注意:很多QP程序可以很方便的直接特殊处理等式(A>=、A<=)或者边界类条件(an>=0),这样可以保证它们的数值稳定性

Q矩阵中的元素q(n,m)一般非0,是稠密矩阵(dense),且N大时,Q矩阵很大。

因此需要特殊的求解QP的程序(专门为SVM设计的),不存储整个Q矩阵,或者利用SVM的一些特殊条件来加速求解。

因此在实践中,我们通常最好使用特别为SVM设计的QP求解算法。

获得b和W

利用KKT条件:

得到W:

得到b:

和b有关的约束



只能告诉我们一个b的范围

如果某个αn>0 ==> (1 - yn(W’Zn + b)) = 0
两边都乘上yn,得
(yn - (W’Zn + b)) = 0

b = yn - W’Zn

上式告诉我们 yn(W’Zn + b) = 1,说明该点在胖胖的边界上,即是一个支撑向量(Support Vector)。

支撑向量的确切定义

我们把αn>0的点(Zn,yn)叫做support vectors,即支撑向量。

它一定在胖胖的边界上,但不是所有在胖胖的边界上的点都是SV,它们都是support vectors candidate。


SV的性质

计算W和b时,只需要用到支撑向量SV的点。

所以SVM是一种利用求解对偶问题的最优解,找出支撑向量来学习出最胖的分隔超平面的过程。

最胖分隔超平面的表示形式

即W是ynZn的线性组合。

这对于当W0=0时,使用GD/SGD的LogReg或者LinReg也成立。

称作 W 能够被 数据点 所表示(represented)。

SVM: 只需要SV就可以线性表示出W。

PLA: 只需要犯错的点就可以线性表示W。

Hard-Margin SVM的两种形式

两者最终都是得到最优的假设函数:

我们真的做到脱离d~了吗?

其实没有,计算Q矩阵时,每个q(n,m)都需要计算Zn'Zm,这是一个在R(d)空间中的两个向量的内积,需要时间至少为O(d)。

因此我们要想办法避开计算转换后的高维空间中向量的内积。

这部分内容需要利用kernel function的威力,我们在下一讲进行探讨。


Mind Map Summary


有关Kernel SVM及更多机器学习算法相关的内容将在日后的几篇文章中分别给出,敬请关注!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容

  • 本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第四章的内容,主要介绍了Soft-Ma...
    sonack阅读 10,519评论 1 6
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,441评论 4 65
  • 本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第三章的内容,主要介绍了Kernel ...
    sonack阅读 17,967评论 2 10
  • 有个人家里的假花没有地方放,就放到我们科里,让大家一起欣赏,于是,这盆花,给我们带来了很多的快乐。 大家首先看到这...
    开心的灵通阅读 133评论 0 1
  • Day 022 2016-4-27阅读下面的文字,根据要求作文。看天光云影,能测阴晴雨雪,但难逾目力所及;打开电视...
    宇枫Sai阅读 283评论 0 0