支持向量机(SVM)
目录
·简介
·凸二次规划
·拉格朗日乘数法与KKT条件
·拉格朗日对偶问题
·支持向量机(SVM)
·再生核希尔伯特空间、核函数与核技巧
·软间隔(softmargin)与正则化
·SVM与逻辑回归
·SVM与神经网络
·支持向量回归机(SVR)
·SVR与多项式回归
·顺序最小化算法(SMO)
·半监督SVM
简介
支持向量机(SVM)做为一种二分类算法,与其他分类算法相比,在小的数据集上,分类效果好,泛化能力强,且可以处理非线性的分类问题,支持向量回归机(SVR)是支持向量机在回归问题上的一种推广。半监督的支持向量机(S3VM)是支持向量机在半监督学习上的一种推广。
本文主要真对SVM,系统的在数学上进行理论推导,要想在数学上推导SVM,首先要介绍三个内容:凸二次规划、拉格朗日乘数法和KKT、拉格朗日对偶问题。
凸二次规划(convex quadratic programming)
凸二次规划从名字上既可以理解,什么是凸,其目标函数二阶导数大于等于零(既目标函数为凸函数),且可行域是凸集,什么是二次,其目标函数最高是二次的,什么是规划,其解决的问题是给定条件下求目标函数的最值。为什么要单独讨论他,是因为很多数学模型都是凸二次规划模型,如:投资组合中的马科维茨模型。凸二次规划具体的数学定义如下:
考虑如下优化问题:
若其中A是有限维实矩阵,Q为半正定实矩阵。
上面给出的就是凸二次规划的定义。
对于凸二次规划给出几点说明
1、约束条件等式问题
标准的二次规划问题约束条件中并没有等式约束,但是当约束条件中出现等式是,可以将这个等式转化为两个不等式约束,如可以转化为和 两个不等式, 所以约束条件中可以含有等式。
2、矩阵Q的问题
为什么Q是半正定矩阵问题就是凸问题。只要证明是凸函数即可,
对于任意的,有:
而:
所以上面两公式相减,得到。
若Q是半正定矩阵,则上式大于零,有:
所以问题是凸的。
3、矩阵Q到底是什么。
对于
对向量x的各个分量求二阶导,
其中 是Q的第i行第j列的元素。
所以其实Q是一个黑森矩阵,是描述这个超曲面的局部曲率。
上面就是凸二次规划问题的介绍,求解这个凸二次规划问题常用的方法为椭球法,内点法和拉格朗日法。下面详细介绍拉格朗日乘数法。
拉格朗日乘数法
其实每个模型的特点,都与其独特的数学推导过程,息息相关,在推导中用的方法一定程度上决定了最后模型的特点,如Adaboost只能用指数损失函数推导,SVM也一样,其最后的特点完全是由推导过程中,使用了拉格朗日乘数法和KKT条件所决定的。
对于一般无约束的的函数优化问题,我们可以直接求导,令导数等于零,找到极值点,再验证最大值最小值。而对于有约束的函数优化问题,可以使用拉格朗日乘数法,将其转化为无约束的函数最优化问题。
但需要特别指出的是,转化成的无约束的函数最优化,也只能求其极值,极值和最值还是有一定差别,一定要理解这个差别,拉格朗日乘数法求得的是极值,并不是最值,还有其并不能确定极值一定存在,即使转化前的目标函数是凸函数,由于存在约束条件,其也可能没有极值。转化后的目标函数如果是凸函数,由于没有约束条件,那必存在机值。以下讨论在极值存在下讨论。
其具体的推导如下:
先考虑只有等式约束的优化问题;
其中x是一个n维向量,,这里f(x)需满足一个条件,即f(x)对向量x各个分量的偏导数连续。很明显凸二次规划的目标函数满足之一条件。
对于g(x)=0,是一个n维空间的超曲面,我们先讨论g(x)=0这个超曲面的一些性质。对于超曲面上的任意一个点,这里讨论的g(x)都是连续可导的,不连续,不可导的g(x)不做讨论。由于这个超曲面是连续可导,所以其上对于任意的点,都存在一个小的领域U,在邻域U里面过点的任意曲线,都可以参数化表示。
设过点的任意曲线的参数表达式为:
则该曲线在点x处的方向导数为:
又点x在曲面g(x)=0上,所以有:
两边关于t求导得到:
所以有:
所以两个向量是正交的,而向量是函数的梯度方向。但是很明显这里g(x_1,x_2,...x_3)=0是一个超曲面,并不是一个函数。所以这里要区分开来。而从这个公式,可以看出,这个方向正交与过这一点的任意曲线在这一点上的方向向量,所以这个方向是曲面的法向量方向。
所以我们在此得到了一个结论:
结论一、超曲面g(x)=0的法向量是函数y=g(x)的梯度方向。
超曲面g(x)=0的性质讨论完了,我们再来看目标函数f(x)在最优点处的性质。
开始我们就假设了的存在,不存在的情况不做讨论,因为拉格朗日乘数法解决不了这一类问题。
结论二、对于最优点,一定有f(x)在该点的梯度垂直于约束曲面。
对于上面的结论,使用反证法证明,
证明: 假设不垂直于约束曲面,则根据垂直的定义,必然可以在曲面g(x)=0上,找到过最优点的一条曲线,使得不垂直于这条曲线在点的方向向量, 则必在这条曲线的方向向量上有投影,
所以,对于点,因为上面的曲线是连续可导,所以可以在曲线上可以找到点,其中为无穷小的方向向量。
观察点的f值,有:
上面为两个向量的内积,因为与向量不垂直,所以不为零,而Q是半正定矩阵,所以有:
取时,如果取 与向量内积为正的方向,对于固定的,在零附近,有以下公式:
因为上式后面是的二阶,前面是一阶,后面收敛比前面快。
由上面的不等式得到:
所以有:
所以这与是f(x)的极小值点相矛盾。所以假设不成立。
至此,我们得到了一下两个结论:
1、超曲面g(x)=0的法向量是函数y=g(x)的梯度方向。
2、对于最优点,一定有f(x)在该点的梯度垂直于约束曲面。
由上面的两个结论可以得到,在最优点处,曲面g(x)=0的法向与目标函数f(x)在这一点的梯度是共线的。
所以,对于目标函数的极值点,一定满足下面方程:
其中为非零常数。
此时我们构造一个函数:
这个函数就是拉格朗日函数。
因为
所以,原带约束的优化问题的极值点,必然满足
其中x是向量,是标量。
解上面的方程组,即可求得原问题的极值点。
至此,我们就推出了约束条件为等式的情况。下面考虑约束条件为的情况。
考虑不等式约束的优化问题
其中x是一个n维向量,,这里f(x)需满足一个条件,即f(x)对向量x各个分量的偏导数连续。很明显凸二次规划的目标函数满足之一条件。
设是f(x)的最优点,此时分两种情况进行讨论,在g(x)=0上和在g(x)<0内。
其一
当在g(x)=0上时,因为f(x)在上连续且可导,且由f(x)导函数也连续,所以,当极小值点在g(x)=0上时,f(x)在没有极小值点,且f(x)在上的值全部大于。
有因为梯度一定是函数上升的方向,所以的方向一定是指向的区域内部。
而在g(x)=0上,的方向也是函数g(x)增大的方向,所以的方向一定是指向的区域外部。
所以当在g(x)=0上时,,其中
所以只要求解关于自变量的极值点,就可以求得原始问题的极值点。即解一下方程组:
其中
其二
当在g(x)<0内部时,其约束对目标函数f(x)的极小值点不起作用,可直接 ,求出的向量x,就是目标函数的极小值点。
为和上面表达式统一,这种情况相当于,
所以只要求解关于自变量的极值点,就可以求得原始问题的极值点。即解一下方程组:
KKT 条件
通过以上其一,其二情况的分析,我们得到,当时,必有,当时,必有
所以,与g(x)必然有一个为零,即,
所以此时有:
这个就是与原始问题中不等式约束对应的拉格朗日的KKT条件。也就是说当约束条件中有不等式约束时,拉格朗日乘数法解出的解,必须满足KKT条件。
到此,我们得到了拉格朗日乘数法,详细叙述如下:
拉格朗日乘数法详细描述
对于如下带约束的优化问题
其中x是一个n维向量,,这里f(x)需满足一个条件,即f(x)对向量x各个分量的偏导数连续。(很明显凸二次规划的目标函数满足之一条件。)
可以转化成以下问题。
引入拉格朗日函数:
其中x为一个n维向量。
求解以下方程组
以上方程组的解的x的部分,就是原问题的最优解。其中以下条件称为KKT条件。
多个约束的拉格朗日乘数法
对于多约束优化问题如下:
其中x为n维向量,f(x)有关于x各个分量的连续一阶偏导函数。
以上优化问题,可以转化为以下问题。
定义广义拉格朗日函数:
其中,, 为引入的拉格朗日乘数。
求解以下方程组,得到的解的x部分,就是原问题的最优解。
与原始问题中不等式约束对应的KKT条件为:
其中j=1,2,3...,k
自此拉格朗日乘数法推导完成。
拉格朗日对偶问题
首先要声明的是,求解带约束的规划问题,上面给出可以转换成拉格朗日函数,对未知数求导,令导数等于零,直接可以解出最优解。也就是说,原始问题已经得到解决。那为什么还要在引入拉格朗日对偶问题呢?
其实在很多时候是用不到转换成拉格朗日对偶问题的,本文的SVM推导,其实不用引入拉格朗日对偶问题也可以解决,在周志华的书和很多教程中并未对此进行说明,直接引入拉格朗日对偶问题,我认为这种推导是本末倒置的,必须先论证出引入拉个朗日对偶问题的必要性。
下面先给出什么是拉格朗日对偶,然后再给出为什么使用拉格朗日对偶。
什么是拉格朗日对偶
对于多约束优化问题如下:
其中x为n维向量,f(x)有关于x各个分量的连续一阶偏导函数。
由上面的推导,可以得到拉格朗日函数:
其中,, 为引入的拉格朗日乘数。且向量的每个分量大于等于零
其拉格朗日对偶函数定义为:
其中,, 为引入的拉格朗日乘数。且向量的每个分量大于等于零
上面定义了拉格朗日对偶函数,下面推出拉格朗日对偶问题。
对拉格朗日对偶函数进行分析。设是原始优化问题可行域内的一个点,是原始问题的最优解。
因为下确界的定义有:
因为是原始优化问题可行域内的一个点,所以有:
所以有
所以有:
所以:
因为 是可行域中任意一点,所以对于最优解也必须满足上面不等式,即:
所以,拉格朗日对偶函数确定了原始问题最优解的下界。
由于对于任意满足条件(的每个分量大于等于零)的,上面不等式都成立,所以有:
试想如果上面的等号成立,那么我们就可以把原始问题求f(x)的最小值,转换成一下问题:
如果能转化成上面问题,可以看出原问题的下确界等于上面问题的上确界,所以上面这个问题称作原问题的拉格朗日对偶问题。
这样我们就定义了什么是拉格朗日对偶问题。但是上面我们假设不等式中等式成立,也就是说在有些时候不等式中等式是不成立的,此时,什么时候等式成立成了关键问题,所以我们引入以下两个概念,强对偶和弱对偶。
强对偶和弱对偶
对于以下不等式
其中向量为原始约束优化问题的最优解。
我们定义如果
那么原始约束的优化问题和以下问题成强对偶关系。
我们定义如果
那么原始约束的优化问题和以下问题成弱对偶关系。
所以如果两者成强对偶关系,那么我们可以将原问题转化成对偶问题来求,至于为什么大费周章的把原问题转化成对偶问题来解,在后面的文章详细分析。
现在又有一个新问题摆在我们的面前,就是什么时候是强对偶问题,什么时候是弱对偶问题。对于这个问题我们给出以下定理判断。
在证明强弱对偶问题的定理时,需要用到一下引理,所以先给出以下引理,再给出判断强弱对偶问题的定理。
引理(凸集分离定理)
设集合S1,S2是(n≥1)中的两个不相交的非空凸集,则存在一个超平面分离S1,S2,既存在,以及b∈R 使得:
且:
证明:
定义集合。则对任意的
必存在,有下式成立。
所以对任意的有
因为集合S1,S2是(n≥1)中的两个不相交的非空凸集,
所以对任意的有
所以集合S也是非空凸集合。且向量0不属于集合S。
对于以上不包含零向量的凸集合S,构造集合
其中表示S的边界。所以对于集合A是的一个闭凸子集。
因为A是闭凸集,所以必然存在使得:
可以证明对,都有内积
若为零向量,则结论显然成立,以下在的情况下讨论。
用反证法证明以上结论,假设存在向量.有
所以由向量可以构造构造一个垂直于向量的向量,构造方式如下:
设,则,
所以
由的表达式得到,
所以,推导出向量
又因为,所以与共线,所以也垂直于
所以:
所以,与相矛盾。所以假设不成立。
所以对于构造的凸集合S,可以找到一个向量,对,有
而集合S中的元素可写为z=x-y,.
所以有:
设
所以有:
而此时刚好:
所以引理得到证明。
定理(强对偶充分条件定理):
对于多约束优化问题如下:
其中x为n维向量,f(x)有关于x各个分量的连续一阶偏导函数。这里已经化简为行满秩。
如果以上问题是一个凸优化问题,函数是凸函数,函数是放射函数, 且存在使得:, 对任意的j=1,2,...k, ,则原问题和对偶问题是强对偶的。
证明:
首先我们定义集合:
其中集合D为拉格朗日函数的定义域,注意这个地方不是原问题的可行域,因为转化成拉格朗日函数时,不存在可行域。
接着我们引入上镜图的概念,定义集合
由上镜集的定义,可以看出,上镜集是集合沿着前k个坐标轴和最后一个坐标轴的正向运动覆盖的区域。
因为函数f(x)是凸函数,函数是凸函数,函数是放射函数,所以集合也是凸函数,所以其上镜图也是个凸集。
我们令:
其中
由的定义可以看出,就是原问题的最小值.
可以根据凸集的定义,可以验证集合也是凸集。
由,定义,可以得到,的交集为空。此时由凸集分离定理,可得到,存在一个非零向量,以及使得:
其中,
可化简为:
再化简为
上式对所有的成立。
上式对所有的成立。
由(1)式的任意性,可得 ,令u从右侧趋近于0,t从右侧趋近于0,可得到:
由(2)式得,u从左侧趋近于0,t从左侧趋近于 ,可得到:
所以:
因为 有两种情形,
第一种情况若,两边同时除以,得到,
所以
又由于拉格朗日对偶本来
所以
所以此时原问题和拉格朗日对偶问题是强对偶关系。
第二种情况若,有
此时因为定理的条件中有,存在,有
因为是凸函数,必有连续性,必然存在的解集的一个真闭子集U,使得有
而,所以在U上
所以
在集合U上,因为仿射函数h_i(\widetilde{x})=0$矛盾。
所以,
所以.,所以向量,这与凸集分离定理中(\mu_0,\lambda_0,t_0)非零矛盾,所以不能等于0.所以定理得到证明。
Slater条件
所以由这个定理可以轻松简单的判断一个原问题和拉格朗日对偶问题是强对偶关系还是弱对偶关系。
只需要看是否满足定理中的条件:
对于一个凸优化问题,存在使得:, 对任意的j=1,2,...k成立, 成立。
这个条件也被称为Slater条件。
自此,我们就引入了判断朗格朗日对偶为强对偶的条件。下面我们给出为什么使用拉格朗日对偶问题。
为什么使用拉格朗日对偶问题
如上面的分析,我们对拉格朗日函数中的未知数进行求导,既可以得到原问题的最优解,为何还有再引入拉格朗日对偶问题,之所以多此一举的使用拉格朗日对偶问题,主要有以下两点原因。
原因1
大大缩减了计算量,不论是直接解原问题,还是对拉格朗日函数求导,令导数等于零,其计算量都和自变量x的维度有关,如果x的维度很高时,这两种方法求解时的计算量就会变大,而不论x的维度多高,转化成拉格朗日对偶问题,其未知数的数量和约束条件的多少有关。从而大大减少了计算量。
原因2
对任意的满足定义域的,有:
所以一定为一个凹函数。一定是一个凸函数。
也就是说不论原问题是不是凸优化问题,拉格朗日对偶问题一定是可以转化为凸优化问题。所以这就是有时引入拉格朗日对偶问题的必要性。
原因3
特别的在SVM中,引入拉格朗日对偶问题,有一个至关重要的原因,是可以方便的引入核函数。这点在下面SVM的推导中说明。
支持向量机(SVM)
和其他模型推导不一样,支持向量机模型的推导并不是从损失函数出发,其推导过程只是在中途化简时用到损失函数。
支持向量机模型其实是一个凸二次规划问题,所以其推导从凸二次规划出发。下面我们就具体的介绍怎么把支持向量机转化成凸二次规划问题。
设训练样本集,
其中代表第i个样本点的n个属性值,是第i个样本点的label。
现在需要找一个超平面将样本集中的正负样本分开。首先考虑简单的形式,如果可以找到两个凸集,使得正样本集在凸集内,负样本集在凸集内,那么由上面介绍的凸集分离定理,存在一个超平面,可以将正负样本完美的分离。如下图所示:
由上图可以看出,可以将训练样本集D完美分开的超平面有很多个,现在我们要找到泛化能力最强的一个,也就是说当样本增加时,这个超平面还可以尽可能的将样本完美分离。我下面试着找到这个超平面。
和所有监督模型一样,训练样本集的最后一个维度y是样本的label,由上图可以看出超平面所在的空间对应的是样本点的属性空间,这个空间与label所在的维度空间没有关系, 先不考虑这个维度,所以下面说的样本点特指的是剔除了label的样本点。
设这个完美的超平面方程为:
第一步:首先求出样本空间任意点(其中n为样本点的n个属性)到这个超平面的距离。
由超平面的方程可以得到,超平面的法向量为,则单位法向量为。
设这个距离为d, 则是点x在超平面上的投影点(法向量指向一侧时是减,法向量不指向 一侧时是加)。 则有下面方程成立:
所以:
以上求出了样本点到超平面的距离。
第二步:求阴性样本到阳性样本之间的最小距离。
对于每个label等于1的样本点有下面公式成立:
对于每个label等于-1的样本点有下面公式成立:
所以存在,,使下是成立:
而且使上述等式成立的阳性样本和阴性样本可以找到。
此时,令
则有
所以有:
这个公式可以看出,通过调整初始的w,b得到的只差统一的一个倍数或者统一的一个平移。
所以求出 即是求出w,b, 所以这里为了后面表述方便,令w,b代替以上公式中的.所以有:
所以此时阳性样本到阴性样本之间的最小距离为:
其中
因为
所以:
取使得上述不等式中等号成立的阳性样本点和阴性样本点,则这个最小距离可求出如下:
所以对于训练样本集D,阳性样本点和阴性样本点的最小距离为:
要使得模型泛化性能好,支持向量机的做法是,最大化这个距离。这就是支持向量机的本质。
在上述过程中,满足不等式中等号的样本点称为支持向量。因为最后推导的这个距离和其他的点(向量)没有任何关系,只与这些点有关,所以者些被称为支持向量。
第三步:最大化上述距离。
我们得到了阴性样本和阳性样本之间的最小距离:
现在要寻找w,b使得这个距离最大化。
既转化为以下问题:
以上问题右等价于以下问题:
这个优化问题就是支持向量机(SVM)的常见形式。
注意上述问题中w,b是自变量,约束条件都是仿射函数,所以上述优化问题是一个凸优化。且是一个凸二次规划问题。
对于这个凸二次规划问题,由上文的分析,我们引入拉格朗日函数:
因为此时自变量的维度是n+m+1维,解起来还是比较麻烦,所以转化为拉格朗日对偶问题解决。
由于上面的是凸二次规划,满足slater条件,所以其拉格朗日对偶问题是强对偶,其对偶问题的最优值就是原问题的最优值。
第四步:下面导出拉格朗日对偶问题:
上面的拉格朗日函数对各个维度求偏导得到:
所以:
所以原拉格朗日函数可以消掉,得到以下函数:
所以拉格朗日对偶问题为:
由上面拉格朗日对偶问题的分析,这个也是一个凸优化,且这个优化问题的自变量的维度只有m维,比原问题减小了n+1维,所以大大减小了计算量。
但是在m很大是求解这个问题还是很麻烦,未解决这个问题引入顺序最小化(SMO)算法,大大缩短计算时间,SMO算法在下面介绍,这里为了SVM的推导接着进行。
对于上面拉格朗日对偶问题,我们用SMO算法解出,带入到以下等式:
可求得,由于原始的带约束的凸二次规划中,约束条件中是不等式约束,所以转化为拉格朗日函数求解时,会伴随KKT条件:
所以此时可以得到,解出的要么大于零,要么等于零。当大于零时,其,此时可反解出b。
这样我们就求出了一开始需要的超平面
需要注意的是,由
得到,在求的后,求解时,对应的样本点是没有起作用的,求时,解起作用的是的点,当时,由KKT条件,得到,这些点被称为支持向量。
也就是说最终模型求解出来后,仅仅与支持向量有关,与其他点没关系。
至此,我们推导出了SVM的基本款。为什么说是基本款,因为以上模型只支持最简单的数据集是线性可分的问题。所以要对其扩展,扩展方向有两个,一个是数据集非线性可分,一个是数据集不可分。对于解决非线性的问题,我们引入核函数。对于不可分的问题,我们引入松弛变量。下面分别介绍。
再生核希尔伯特空间、核函数与核技巧
在上面的推导过程中,训练数据集是线性可分的,如果上面的数据集D如下图分布,我们是不可能找到一个平面将其阴性样本和阳性样本分开的。
此时我们要想使用SVM,必须做一个变换。
如上图所示数据集,可以第i个样本点的极坐标变换为
可以反解出为:
把上面的映射关系设为:
所以原数据集的分布图可以转化为下图:
此时若用当成新的直角坐标,数据集是线性可分的,是可以使用上面推导的SVM的。
此时SVM求解时的拉格朗日对偶问题如下:
对于上述公式中的,有:
此时SVM求解时的拉格朗日对偶问题如下:
可以看到,这个问题并没有变量,所以我们只要通过样本点能直接求得,那么问题就大大的简单了,
我们设:
如果能找到函数,我们根本不需要知道的具体表达式,直接求解以下问题即可:
所以问题的关键就转化成了两个问题,其一、对于任意的数据集,是否存在,如果根本不存在,这就行不通。其二、如果存在,那么怎么求得.
Cover定理
对于一个复杂的模式分类问题,若该分类问题的样本空间不是稠密的,则将其分类问题非线性地投射到高维空间将比投射到低维空间更可能是线性可分的。
根据cover定理,若原问题线性不可分,则将其映射到比原空间更高的维度空间上,其更容易线性可分,但是也可能线性不可分的,定理中只说了更容易线性可分。但是如果样本空间中维度是有限维的,我们下面还可以证明,一定存在一个映射,将其映射到更高维上时,问题线性可分。