SVM面试题

SVM的面试题目相对有章可循,本次记录一下常见的几个面试题

一句话介绍SVM

SVM是一种二分类模型,他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔大使它有别于普通的感知机,通过核技巧隐式的在输入空间直接求解映射空间中特征向量的内积,使其成为一个非线性分类器。SVM的学习策略是间隔最大化,可形式化为一个求解凸二次规划问题。

SVM中的几个核心概念

1 确定超平面及函数间隔

由空间上的平面公式确定超平面 wx+b = 0,且 |wx+b| 表示点 x 到平面上的距离。正类负例位于分割平面两侧,因此y(wx+b) 可同时表示分类正确性以及距离确信度。这也就是函数间隔,其被定义为训练集中所有点到超平面距离的最小值。

2 几何间隔

由于成比例地缩放w和b会使得 |wx+b| 跟着成比例缩放,因此,需要对法向量w加上约束,使得间隔是确定的,也就是函数间隔整体除以 ||w||,也就得到了几何间隔

3 间隔最大化(硬间隔)

分为硬间隔最大和软间隔最大
SVM的基本思想就是求解可以正确划分数据集并且几何间隔最大的分离超平面,其原因是线性可分超平面有无数个,但是间隔最大超平面是唯一的。

间隔最大化的意思就是以充分大的确信度对训练数据进行分类,也就是说,不仅将正负实例分开,同时对最难分的实例点(距离超平面最近的点)也有足够大的确信度将其分离。
此处推出约束优化问题的原始形式(见上一篇博客)

4 支持向量

与超平面最近的点被称为支持向量,也就是使得原始问题约束项成立的点。
实际上离超平面很远的点已经被正确分类,我们让它离超平面更远并没有意义。反而我们最关心是那些离超平面很近的点,这些点很容易被误分类。如果我们可以让离超平面比较近的点尽可能的远离超平面,那么我们的分类效果会好有一些

5 核函数

注意,核函数本质不是将特征映射到高维空间,而是找到一种直接在低位空间对高维空间中向量做点积运算的简便方法。
其证明以及案例可参考李航-统计学习方法 P117

6 为何将原始问题转为对偶问题

总是说对偶问题更容易求解,道理在哪呢?

之所以说换为对偶问题更容易求解,其原因在于降低了算法的计算复杂度。在原问题下,算法的复杂度与样本维度相关,即等于权重w的维度,而在对偶问题下,算法复杂度与样本数量有关,即为拉格朗日算子的个数。
因此,如果你是做线性分类,且样本维度低于样本数量的话,在原问题下求解就好了,Liblinear之类的线性SVM默认都是这样做的;但如果你是做非线性分类,那就会涉及到升维(比如使用高斯核做核函数,其实是将样本升到无穷维),升维后的样本维度往往会远大于样本数量,此时显然在对偶问题下求解会更好。

另一方面,我们有分析过,只有在支持向量上的样本对应的拉格朗日算子λ才大于0,其余的λ都是=0,而转为对偶问题的计算对象仅有λ,所以大大降低了计算复杂度。

为什么SVM对缺失值敏感

SVM与LR的联系

1)损失函数
    SVM是hinge损失
    LR是log损失
2)输出
    LR给出了后验概率
    SVM只给出0或1,也就是属于哪一个类别
3)异常值
    LR对异常值敏感;SVM相对不敏感,泛化能力好
4)训练集大小
    较小的训练集更适合SVM。
    SVM的参数优化方法是先转为对偶问题再使用SMO算法,最坏情况下的时间复杂度是O(n^2),并不适合在大规模数据集上做分类。
    另外,在使用核技巧,例如RBF时,特征会升高至无限维,因此其计算量也变得很大。
5)LR用到所有的样本点来寻找分割面;SVM只用到少数靠近支持面的几个点。
6)非线性处理方式
    LR靠特征组合高次项;SVM也可以组合,但更多使用核函数
7)LR较为简单,可以适用于大规模线性分类;SVM较复杂,但是理论支撑完备,
8)SVM只考虑支持向量

SVM优缺点

优点:
    1、可以有效解决高维特征的分类和回归问题
    2、无需依赖全体样本,只依赖支持向量
    3、有大量的核技巧可以使用,从而可以应对线性不可分
    4、样本量中等偏小照样有较好的效果
缺点:
    1、如果特征维度远大于样本个数,SVM表现一般
    2、SVM在样本巨大且使用核函数时计算量很大
    3、非线性数据的核函数选择依旧没有标准
    4、SVM对缺失数据敏感
    5、特征的多样性导致很少使用svm,因为 svm 本质上是属于一个几何模型,这个模型需要去定义 instance 之间的 kernel 或者 similarity(线性svm中的内积),而我们无法预先设定一个很好的similarity。这样的数学模型使得 svm 更适合去处理 “同性质”的特征

为什么SVM的分割超平面方程为 wx + b = 0?

1)这个超平面的公式是假设。
2)其中w和x均为向量,b是一个实数。
3)在三维空间中一个法向量w,一个位移b能够唯一确定一个平面,因此作出如上公式假设。
而x向量可以看作是原点到平面上任一点的连线向量,而w就是原点垂直于平面的那个向量,因此,w的大小就是原点到超平面的最短距离。
4)为什么要设其=0?
为了方便,假设两类样本点的边界到超平面的距离是相等的,因此就设为0,这样的话,wx + b > 0就表示样本点在分割平面上方,wx + b < 0的话就代表在其下方。

超平面方程与 ax+b=y的直线方程有何联系?

几何角度解释如何寻找最优超平面

1)给出一个中间超平面H0,并且其满足wx - b = 0,给出另外两个超平面H1:wx - b = m;H1:wx - b = -m,设定为正负m的目的是为了让H1到H0的距离 = H2到H0的距离。
2)w和b都是可以进行同步缩放的,因此我们为了简化问题,将m缩放为1,那么两个超平面的方程为:



3)上述两个超平面的中间是没有数据的,这句话是对超平面的一个约束,转化为数学描述就是:



上述两个约束可以合并为:其中yi是两类样本中的点

4)假设:


上图中其实可以看出,如果X0距离另外一个超平面距离为m的话,那么岂不是X0+m可以求得另一个超平面上的点。
但是X0是可以看作一个向量,而m只是一个标量,因此需要将m转化为标量,换句话说,也就是想得到一个垂直于H1的且长度为m的一个向量。
其实对于H1来说,w就是其上的法向量那么:



那么K就是我们要寻找的向量。

ok,现在向量k找到了,可以与X0进行相加,可以得到z0 = X0 + k,如下图所示:

经过上面式子的推导就将m的求法得到了。


SVM参数C的选择

SVM核函数的选择

转载注明:https://www.jianshu.com/p/fa02098bc220

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342