从零开始SVM算法(1)-SVM是什么


SVM存在的意义

要了解SVM存在的意义,首先从下面一个简单的二维数据集例子开始。



上面是一个线性可分的数据集。所谓线性可分,就是可以用一条直线将两类数据点完全分开。在图中,我们用圈圈表示负类,用加号表示正类。假设现在要用一条直线将正类和负类完全分开,显然会有无穷多个解,有无限多条直线可以完全分开正类和负类。

下图显示了其中一条可以完全区分两类的直线



图中的Decision Boundary既是决策边界,在决策边界右边的点被分类为正类,在决策边界左边的点被分类为负类。既然有无穷多的直线可以区分训练集的两类,那么是否有一个标准能够度量决策边界的优劣,从而在无穷多个直线当中选择一个最好的作为决策边缘,区分未知的点呢?答案是肯定的,这也是SVM存在的意义。SVM可以用来度量决策边界的优劣,下面我们将介绍SVM(支持向量机)对决策边界的度量规则,从而选出SVM认为的最好的决策边界。

SVM规则


这里我们还是以刚刚的决策边界为例子。在这幅图里,我们增加了一条与决策边界垂直,与最近的数据点相连的线段。这条线段的长度,我们称之为Margin。换句话说,Margin就是所有数据点到决策边界的最短距离。

SVM规定,在决策边界能够完全正确划分正负类的前提下,Margin的值越大越好。SVM算法目的就是要找出找出满足这两个条件的直线。因此SVM也称为Large-Margin算法。

Margin值越大越好的原因

下面我们用另一个Margin值比较小的决策边界作为例子,对比说明Margin值较大的好处。

假设现在用此决策边界预测图中绿色点的类别,很明显该点位于决策边界的左边,该点应该被分为负类。但是,在收集数据的时候,可能会存在误差。假设在数据收集的时候,某一误差使得绿色的点从原来的位置移动到了红色点的位置,即x1特征由于误差从0.2变成0.4。此时,红色点落在了决策边界的右边,决策边界判定这个点为正类,因此分类错误。

现在我们重新看回之前一个较大Margin的决策边界例子。


我们对同样的情况进行分析,即绿色点由于误差,使其位置从原来的位置移动到了红色点的位置。这个时候,红色点依然在决策边界的左边,决策边界判定这个点为负类点,此时对该点分类正确。

从上面两个例子可以看出,越大的Margin对误差的容忍度就越好。这能一定程度减小过拟合的问题。所以SVM规定,Margin值越大,决策边界越优,能够容忍更大的测量误差。

为什么要命名为支持向量机

很多人必定对支持向量机这个名字感到很疑惑。要知道支持向量机的命名缘由,首先要弄清楚什么是支持向量。下面我们还是以原来的例子说明这个问题。

在坐标里的每一个点都由多个维度组成,任何一个点都可以写成多维向量的形式,维度的值是每个特征对应的值。因此每一个点也可以称作是一个向量。图中的虚线是两条边缘,两条边缘得到的方式是让两条平行于决策边界的线向两侧平行移动,直到任意一条边缘与图中任意一个点有交集的时候,停止移动。

在支持向量机算法中,我们最终需要得到的是在能百分百区分正负类的前提下,得到一条拥有最大Margin的直线。Margin的值就是其中一条边缘到决策边界的距离。

我们很容易看出,Margin的大小仅仅和落在两条虚线上的数据点有关系,直线之外的点不管怎么变化,Margin的值都不会改变。这个算法仅仅需要落在两条虚线上的点的支持,其它点(图中虚化的点)可以不存在。因此我们可以把落在虚线上的点称为支持点。前面我们提到,一个点也可以称为一个向量,因此,我们或许可以把落在虚线上的点称为支持向量。

然而,落在虚线上的点仅仅能称作支持向量候选(Support Vector Candidate), 支持向量候选和支持向量的区别在后续的章节会有说明。SVM算法其实就是靠支持向量来计算最大Margin的一个算法,因此将其命名为支持向量机。

总结

在这一章简单介绍了SVM的存在意义。在后续的章节里,将会用几何以及高等数学的知识,推理SVM的计算过程,得到一个最佳的决策边界。在本章节里,只是介绍了线性SVM,所谓线性SVM就是用SVM解决线性可分的数据集问题。对于线性不分的情况,SVM也会有相应的方法解决,在后续的章节里也会有详细的推导。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容