机器学习（四）：支持向量机

一、基本原理

给定训练样本集 $D=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \ldots,\left(\boldsymbol{x}_{m}, y_{m}\right)\right\}, y_{i} \in\{-1,+1\}$ ，学习的目标即是找到一个划分超平面，这个超平面可以通过线性方程 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0$ 来描述。
对于样本点 $\left(\boldsymbol{x}_{i}, y_{i}\right) \in D$ ，若 $y_{i}=+1$ ，则 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b>0$ ；若 $y_{i}=-1$ ，则 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b<0$ ，令 $\left\{\begin{array}{ll}{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \geqslant+1,} & {y_{i}=+1} \\ {\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \leqslant-1,} & {y_{i}=-1}\end{array}\right.$ 即 $y_{i}\left(\boldsymbol{w}^{\mathbf{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1$
样本空间中，任一点 $x$ 到超平面的距离为 $r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|}$ ，距离超平面最近的几个样本点被称为支持向量(support vector)，使上述不等式成立，因此两类支持向量的间隔(margin)为 $\gamma=\frac{2}{\|\boldsymbol{w}\|}$ 。

划分超平面、支持向量与间隔

支持向量机的目的是找到能够正确划分训练数据集的最大间隔的划分超平面，即

$\begin{array}{l}{\max _{\boldsymbol{w}, b} \frac{2}{\|\boldsymbol{w}\|}} \\ {\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m}\end{array}$

可重写做
$\begin{array}{l}{\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}} \\ {\text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m}\end{array}$

这是一个凸二次规划问题(convex quadratic programming)，最大间隔划分超平面存在唯一性。
为了更好求解上述最优化问题，考虑其对偶问题，首先构造拉格朗日函数：

$L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)$

其中 $\boldsymbol{\alpha}=\left(\alpha_{1} ; \alpha_{2} ; \ldots ; \alpha_{m}\right)$ ， $\alpha_{i} \geqslant 0$ ，
令
$\begin{aligned} \nabla_{\boldsymbol{w}} L(\boldsymbol{w}, b, \alpha) &=\boldsymbol{w}-\sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}=0 \\ \nabla_{b} L(\boldsymbol{w}, b, \alpha) &=\sum_{i=1}^{m} \alpha_{i} y_{i}=0 \end{aligned}$

带入原方程，则得到对偶问题 $\min _{\alpha} - \sum_{i=1}^{m} \alpha_{i}+\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$ $\begin{array}{cl}{\text { s.t. }} & {\sum_{i=1}^{m} \alpha_{i} y_{i}=0} \\ {} & {\alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m}\end{array}$
求出 $\alpha$ 后，即可求得模型为 $\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b = \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}+b \end{aligned}$
上述过程需要满足KKT条件，即 $\left\{\begin{array}{l}{\alpha_{i} \geqslant 0} \\ {y_{i} f\left(x_{i}\right)-1 \geqslant 0} \\ {\alpha_{i}\left(y_{i} f\left(x_{i}\right)-1\right)=0}\end{array}\right.$ 由上式可知，总有 $\alpha_{i}=0$ 或 $y_{i} f\left(x_{i}\right)=1$ 。这说明训练完成后，最终模型仅与支持向量有关。

二、算法实现

为简明起见，本文采用sklearn的svm包实现二分类问题。首先是二维线性可分问题，如下所示：

import numpy as np
import scipy.io as spio
import matplotlib.pyplot as plt
from sklearn import svm
datafile = 'data1.mat'

def svmLinear():
    data = spio.loadmat(datafile)
    X = data['X']
    y = data['y'].ravel()
    
    svm_linear = svm.SVC(C=1.0,kernel='linear').fit(X,y)
    plot_linearBoundary(X,y,svm_linear)
    
def plot_linearBoundary(X,y,model):
    class1 = np.where(y==1)
    class0 = np.where(y==0)
    plt.plot(X[class1,0].ravel(),X[class1,1].ravel(),'ro')
    plt.plot(X[class0,0].ravel(),X[class0,1].ravel(),'g*')
    plt.xlabel('x1')
    plt.ylabel('x2')
    plt.legend(['y=1','y=-1'])
    
    w = model.coef_
    b = model.intercept_
    xp = np.linspace(min(X[:,0]),max(X[:,0]),100)
    yp = -(w[0,0]*xp+b)/w[0,1]
    plt.plot(xp,yp,'b')
    sv = model.support_vectors_
    plt.scatter(sv[:,0],sv[:,1],s=150,c='none',alpha=0.7,edgecolor='black')
    plt.show()
if __name__ == '__main__':    
    svmLinear()

下图显示了原始数据、支持向量和划分超平面，说明了SVM的分类效果。

二维线性可分情形

以下为二维线性不可分的情形，采用径向基核函数，实现过程如下：

def svmKernel():
    data = spio.loadmat('data2.mat')
    X = data['X']
    y = data['y'].ravel()
    
    svm_notlinear = svm.SVC(C=10,gamma=200,kernel='rbf').fit(X,y)
    plot_notlinearBoundary(X,y,svm_notlinear)
    
def plot_notlinearBoundary(X,y,model):
    class1 = np.where(y==1)
    class0 = np.where(y==0)
    plt.plot(X[class1,0].ravel(),X[class1,1].ravel(),'ro')
    plt.plot(X[class0,0].ravel(),X[class0,1].ravel(),'g*')
    plt.xlabel('x1')
    plt.ylabel('x2')
    plt.legend(['y=1','y=-1'])
    
    x1 = np.linspace(min(X[:,0]),max(X[:,0]),100).reshape(1,-1).transpose()
    x2 = np.linspace(min(X[:,1]),max(X[:,1]),100).reshape(1,-1).transpose()
    X1,X2 = np.meshgrid(x1,x2)
    
    vals = np.zeros(X1.shape)
    for i in range(X1.shape[1]):
        X = np.hstack((X1[:,i].reshape(-1,1),X2[:,i].reshape(-1,1)))
        vals[:,i] = model.predict(X)
    plt.contour(X1,X2,vals,[0,1],color='b')
    sv = model.support_vectors_
    plt.scatter(sv[:,0],sv[:,1],s=150,c='none',alpha=0.7,edgecolor='black')
    plt.show()

if __name__ == '__main__':    
    svmKernel()

下图显示了原始数据、支持向量和划分超平面，说明了SVM的分类效果，之所以有些支持向量分布在外围，是因为在高维空间中其与划分超平面距离较近。

二维线性不可分情形

三、问题探讨

3.1、序列最小优化

可以看到最终得到的优化问题是一个二次规划问题，可以使用二次规划算法求解，对于此问题更高效的做法是序列最小优化(sequential minimial optimization, SMO)。
其基本思路是：先固定 $\alpha_{i}$ 之外的参数，求 $\alpha_{i}$ 的极值。由于存在约束 $\sum_{i=1}^{m} \alpha_{i} y_{i}=0$ ，若固定单个 $\alpha_{i}$ 之外的参数， $\alpha_{i}$ 可由其他变量导出，因此每次选择两个变量 $\alpha_{i}$ 和 $\alpha_{j}$ ，固定其他参数，重复执行以下步骤：1. 选取一对新的变量 $\alpha_{i}$ 和 $\alpha_{j}$ ； 2. 固定 $\alpha_{i}$ 和 $\alpha_{j}$ 以外的参数，通过优化方程计算得到更新后的 $\alpha_{i}$ 和 $\alpha_{j}$ 。
由约束条件可以得出 $\alpha_{i}$ 取值的意义： $\begin{aligned} \alpha_{i}=0 & \Leftrightarrow y_{i} f\left(x_{i}\right) \geq 1 \\ 0<\alpha_{i}<C & \Leftrightarrow y_{i} f\left(x_{i}\right)=1 \end{aligned}$ 对于第1种情况，表明 $\alpha_{i}$ 是正常分类，在边界内部；
对于第2种情况，表明 $\alpha_{i}$ 是支持向量，在边界上
固定其他变量，考虑 $\alpha_{i}$ 和 $\alpha_{j}$ 时： $\alpha_{i} y_{i}+\alpha_{j} y_{j}=c, \quad \alpha_{i} \geqslant 0, \quad \alpha_{j} \geqslant 0$ 其中 $c$ 是常数。

SMO二变量优化问题

将上式带入到原优化函数中，由于只有两个变量 $\alpha_{i}$ 和 $\alpha_{j}$ ，因此要求的目标即变成优化函数在如图对角线上的最优值，实质上使得两变量的最优化问题变为单变量的最优化问题。

3.2、核方法

对于一个线性可分的问题，可以用一条直线或者一个平面将其划分，而对于非线性问题（例如异或问题），就无法这样划分。一个解决的思路就是通过非线性变换，将非线性问题转化为线性问题，核方法就是这样的一个方法。其基本想法是：使用一个变换将低维空间的数据映射到高维空间，在新空间中学习到超平面将数据线性可分。
核函数就是一个从原空间到新空间的映射，常见的核函数有：
线性核： $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$
多项式核： $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}\right)^{d}$
高斯核： $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}_{i}- \boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right)$
拉普拉斯核： $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|}{\sigma}\right)$
sigmiod核： $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\tanh \left(\beta \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}+\theta\right)$

高斯核分类示意图

参考资料

[1] https://github.com/lawlite19/MachineLearning_Python
[2] 周志华著. 机器学习. 北京:清华大学出版社,2016
[3] 李航著. 统计学习方法. 北京:清华大学出版社,2012
[4] 史春奇等著. 机器学习算法背后的理论与优化. 北京:清华大学出版社,2019
[5] Peter Harrington 著. 李锐等译. 机器学习实战. 北京:人民邮电出版社,2013

不见可欲，使心不乱。 ——《老子》

最后编辑于：2019.08.12 21:15:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345