机器学习: 线性分类器

之前说过线性回归可以帮我们在给定特征值后预测对应的结果,而在分类上线性回归也是可以的。

Perceptron Classifier

Perceptron Classifier 也就是我们所说的感知机,用于区分数据应该属于哪个类的。先看个使用线性回归拟合的例子吧

上面是两个不同的线性回归方程,很明显第一个拟合不是那么好。但是我们更希望看到的是有一条线将数据集里的数据分割开,而不是直接拟合。所以就有了感知机,下面是感知机的函数定义(目前就分两类)

要注意的是这里的 x 是特征值,在多维上感知机都能将数据分类,如二维用线分割,三维用面分割,这种分割的线/面统一叫做超平面。一个只有两个维度的特征数据集例子如下所示

这里要注意的是横纵坐标不再是 xf(x) 了,而是 x_1 以及 x_2下面是另外一个例子

不可分情况

上面这个例子特征数据都很好,一眼就看出要怎么分割,但是数据里你中有我,我中有你怎么办?如下图所示

这个时候我们就可以对特征值“做点手脚”,比如将它们平方一下

这样就可以将原来的一维变成二维,在二维里用一维的方式去分割。以此类推,二维不能分割的变成一个曲面(三维),用二维平面去分割曲面,等等。

过拟合

当然最好不要从一维变到一万维,这样就过拟合了,即训练数据每个都精确地分类,但是分类测试数据时候往往出错率很高。所以这种修改特征值的方法优点在于

  1. 更容易分类
  2. 在修改特征值后是一定可以分类的(如搞到一万维一定可以分类。。。)

缺点是

  1. 高维容易过拟合
  2. 训练数据分类结果很好,但是测试数据分类结果很差

用图表形式表示出错率

找到恰当的 \theta

刚刚只是简单说了下感知机的原理,现在要深入了解感知机。其实,有没有发现如果开局数据好看,只要能够将训练数据分成两类,感知机的参数 \theta 怎么设置都可以。当然,这是不好的,理想情况是两边数据离感知机方程越远越好,也就是要找到一个恰当的 \theta 值使得这个方程最优。

我们的线性回归就是使用梯度下降出错率导数去找 \theta 值的,不过这里可以先不用梯度下降,而对每次预测值直接调整 \theta。伪代码如下

这里有点像梯度下降的感觉,不过没有求导,只是借用了一下它的原理。

  • 当预测正确后,y^{(j)}-\hat{y}^{(j)}=0,这时候不需要调整 \theta

  • 当预测出错后,y^{(j)}-\hat{y}^{(j)}=\pm2,这时候就可以要调整 \theta 值使得拟合函数更靠近数据且感知机更好分割数据

调整过程如下

一直调整下去最终结果会将两边数据分开

基于梯度的感知机

我们先来看看原来的线性拟合函数是怎么样的

方方正正的,出错率还很高,拟合也不是很理想。这时候就想,要不我把这个函数变曲一点?这样的话拟合效果会好一点,而且出错率就不是 1-0,可以是 1-一个小数,出错率会稍微降低一点。如图所示

这个平滑的函数一般使用 Sigmoid 函数。变曲了之后,出错率就可以用公式表示了

除了上面这些优点,我们还可以用梯度下降的方法来寻找最优的 \theta 值了。

梯度下降

假设现在的 Cost Function 是

对其中参数 a 求导后,就可以用梯度下降的方法去求最优的 a 值了。

当然这里的 Cost Function 是假定的,而使用不同的回归函数也会有不一样的 Cost Function。比如下图两个不同的 Cost Function

多个类的分类

多个类的分类可以借用 Bayes 的分类方法,求数据属于哪个类的概率高,哪个高选哪个,函数表示成这样

而感知机里的分割函数要写成这样

计算给定特征值后属于哪个类的概率

而 Negative Log Likelihood 的代价函数就是

多次梯度下降迭代后,\theta 值就可以调整到最优了,

正则化

在梯度下降的迭代过程中肯定少不了要正则一下,以此防止下面的过拟合情况

下面给出使用 Negative Log Likelihood 并添加正则因子的代价函数

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容