支持向量机SVM

什么是支持向量机

支持向量机(SVM)是一种二分类模型,它的基础模型时定义在特征空间上的间隔最大的线性分类器。如下图:

简单支持向量机模型

支持向量机当训练模型线性可分时,可以通过硬间隔最大化,学习一个线性的模型,上图就是一个硬间隔最大化的模型。当训练数据近似线性不可分时,使用软间隔支持向量机。当线性不可分时,使用核函数和软间隔最大化来学习。本文主要讲述硬间隔支持向量机的推导过程。

硬间隔支持向量机

对于一个线性可分的数据集T = \left\{ (x_{1}, y_{1} ), (x_{2}, y_{2}), …, (x_{n}, y_{n}) \right\} ,划分平面有很多,我们需要找到一个最具鲁棒性的平面,即超平面,来划分数据集。什么才是最具鲁棒性,我们将在后面讲解。

首先定义超平面的线性方程,w和b就是需要求解:

w^TX + b = 0

i点到超平面的距离几何间隔(即距离)为:

\gamma_{i} =y_{i}(\frac{ w^TX_{i} +b  }{\vert \vert w\vert \vert } )

对于\gamma _i存在最小值,即距离平面最近的点:

\gamma =\min\gamma_{i}

这里就要提到上面的最具鲁棒性,需要最具鲁棒性就需要将\gamma最大化,简单来说,就是要找到距离超平面最近的点,同时这些点距离超平面的间隔要近可能的大,这些点我们称之为支持向量,也就是我们需要保留的点。我们写成数学公式:

\max \limits_{W,b} \gamma\\

s.t. y_{i}(\frac{w^TX+b}{||w||} ) \geq \gamma, i=1,2,3,…,n\\

\gamma定义为\frac{\hat{\gamma} }{||w||} ,于是上面的式子可以写成:

\max \limits_{w,b} \frac{\hat{\gamma} }{||w||} \\

s.t. y_{i}(w^TX+b) \geq \hat{\gamma}, i=1,2,3,…,n\\

对面上面式子,我们可以用\hat{\gamma}=1,代替,相对于对数据点进行了等比例缩放,不影响求解的w和b。同时最大化\frac{1 }{||w||} 和最小化\frac{1}{2}||w||^2等价,再次化简:

\min \limits_{w,b} \frac{1}{2}||w||^2 \\

s.t. y_{i}(w^TX+b)-1 \geq 0, i=1,2,3,…,n\\

这就是最终要求解的最优化问题。

求解方程,对偶问题

对于求解线性可分支持向量机的最优化问题,需要应用到拉格朗日对偶问题(PS.请自行查阅)。

首先构建拉格朗日函数:

L(w,b,\alpha ) = \frac{1}{2} ||w||^2-\sum_{i=1}^n\alpha_{i}y_i(w^Tx_i+b) +\sum_{i=1}^n\alpha_i\\s.t.\alpha_i\geq 0,i=1,2,3…,n


根据拉格朗日对偶问题,原始问题的对偶问题就是

\max \limits_{\alpha}\min\limits_{w,t}L(w,b, \alpha)

先求解\min\limits_{w,t}L(w,b, \alpha),分别对w和b的偏导为0,可得到:

w=\sum_{i=1}^n\alpha_iy_ix_i\\0=\sum_{i=1}^n\alpha_iy_i

将上述式子带入L(w,b,\alpha)中:

\max\limits_{\alpha}\sum_{I=1}^n\alpha_i-\frac{1}{2} \sum_{i=1}^n\sum_{i=1}^n\alpha_i\alpha_jy_iy_jX_i^TX_j\\s.t. \sum_{i=1}^n\alpha_iy_i=0,\\\alpha_i\geq 0, I =1,2,…,n.

如何求解\alpha,需要用到SMO算法,这个算法比较复杂,简单来说就是选取两个参数\alpha_i\alpha_j,固定\alpha_i\alpha_j以为的参数,然后求解式子,更新两个参数。最后求出\alpha,通过\alpha和KKT条件求出w,b求解为某个支持向量带入得到的解:

w=\sum_{i=1}^n\alpha_iy_iX_i\\b=1-w^TX^j

KKT条件:

w-\sum_{i=1}^n\alpha_iy_iX_i=0\\-\sum_{i=1}^n\alpha_iy_i=0\\\alpha_{I}(y_i(w^TX_i+b)-1)=0,i=1,2,…,n\\y_i(wX_i+b)-1\geq 0, i=1,2,…,n\\\alpha_i\geq 0,i=1,2,…,n\\

软间隔支持向量机

在上面的基础上约束条件,其实就是表示有些点可以跨过超平面,获得更加宽松的条件:

y_i(w^TX_i+b)\geq 1-\xi _i

对于每个松弛变量,支付一个代价,于是目标函数变成了:

\min \limits_{w,b} \frac{1}{2}||w||^2 +C\sum_{i=1}^n\xi _i\\s.t. y_{i}(w^TX+b)\geq 1-\xi _i, i=1,2,3,…,n\\\xi _i\geq 0,i=1,2,…,N

核函数

对于线性不可分的数据集,可以把数据集映射到高纬度空间,实现线性可分。


1 线性核函数

线性内核是最简单的内核函数。 它由内积<x,y>加上可选的常数c给出。 使用线性内核的内核算法通常等于它们的非内核对应物,即具有线性内核的KPCA与标准PCA相同。表达式 :

k(x,y)=x^Ty+c

2 多项式核函数

多项式核是非固定内核。 多项式内核非常适合于所有训练数据都归一化的问题。

这是我做的笔记:

表达式:

k(x,y)=(ax^Ty+c)^d

3 高斯核可调参数是斜率α,常数项c和多项式度d。

高斯核是径向基函数核的一个例子。

k(x,y)=exp(-\frac{||x-y||^2}{2\sigma ^2} )

或者,它也可以使用来实现

k(x,y)=exp(-\gamma ||x-y||^2)

可调参数sigma在内核的性能中起着主要作用,并且应该仔细地调整到手头的问题。 如果过高估计,指数将几乎呈线性,高维投影将开始失去其非线性功率。 另一方面,如果低估,该函数将缺乏正则化,并且决策边界将对训练数据中的噪声高度敏感。

4指数的内核

指数核与高斯核密切相关,只有正态的平方被忽略。 它也是一个径向基函数内核。

表达式:

key(x,y)=exp(-\frac{||x-y||}{2\sigma^2 } )

5 拉普拉斯算子核

拉普拉斯核心完全等同于指数内核,除了对sigma参数的变化不那么敏感。 作为等价的,它也是一个径向基函数内核。

表达式:

k(x,y)=exp(-\frac{||x-y||}{\sigma } )

重要的是注意,关于高斯内核的σ参数的观察也适用于指数和拉普拉斯内核。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343