[斯坦福大学公开课:机器学习(二)] 欠拟合与过拟合、逻辑回归

欠拟合与过拟合

假设随机变量x∈R,需要预测随机变量y。下面最左边这副图中,显示了函数y=θ01x对数据集的拟合。通过观察,我们发现数据集并不像是一条直线,因此函数对数据集并没有很好得拟合。


另外,我们给刚才的函数加上一个额外的特征x2,此时y=θ01x+θ2x2,我们获得了一条对数据集拟合更好的曲线。那么,我们是否就可以就认为加入越多的特征,函数拟合得就越好?上面最右边的图显示了用含有五阶多项式去拟合数据集的结果。我们看到,尽管曲线完美得经过了数据集中的每一个点,但是我们不能因此而断定这就是一个好的预测函数。我们将最左边的图称为欠拟合(underfitting),表示模型并没有很好的捕捉到数据的结构。右边的图,我们将它称为过拟合(overfitting)

局部加权线性回归(Locally weighted linear regression)

在我们之前的线性回归算法中,为了做出预测,我们需要:
1. 调整 θ使得∑i(y(i)Tx(i))2最小化。
2. 输出θTx。

而在局部加权线性回归算法中,我们采用的做法如下:
1. 调整θ使得∑iω(i)(y(i)Tx(i))2最小化。
2. 输出θTx。

在这里,ω(i)是一个非负的权值。直觉上,如果ω(i)相对于某个i非常大,那么我们才选取θ的时候,应该尽量让(y(i)Tx(i))小一点;如果ω(i)很小,那么(y(i)Tx(i))将会被忽略。

在选取权值时,一个相对比较标准的做法是:


我们注意到,权值取决于我们需要估计的x周围特定的点。若|x(i) - x|很小,那么ω(i)接近于1;若|x(i) - x|很大,ω(i)将会很小。因此,在调整θ的过程中,对于距离查询点(query point)越近的训练样本,将会赋予更高的权重。其中,参数τ控制整个函数的形状,即在训练样本远离查询点的过程中,权重下降的速度。我们将τ称为带宽参数(bandwidth parameter)

局部加权线性回归是我们看到的第一个非参数算法(non-parametric)。而我们之前看到的线性回归被称为参数学习算法,因为它有若干个固定的参数用来拟合数据。一旦调整好参数并将它们保存,我们再也不需要为将来的预测而保留训练数据。相反,局部加权线性回归在做预测时,需要保留周围所有的训练集。

逻辑回归(Logistic regression)

现在让我们来讨论分类问题。它像是一个回归问题,但是我们需要预测的y值是仅仅是一系列离散的值。目前,我们将关注于二元分类问题,即y只能取两个值,0或者1。比如说,我们想要建立一个垃圾邮件分类器,此时x(i)可能代表一些邮件的特征,当y=1时,邮件属于垃圾邮件;否则y=0。0也被称为负类(negative class),1被称为正类(positive class)。给定一个x(i),相关的y(i)也被称为该训练样本的标签(label)

我们当然也可以忽略y是一个离散的值这一事实,而采用之前的线性回归来做预测。然而,在当前问题上使用该算法表现相当差,并且线性回归无法使得h��θ(x)范围在{0, 1}。

为了修正上述不足,我们将改变h��θ(x)的形式:


其中,


被称为逻辑函数(logistic function)或者sigmoid函数。逻辑函数的图形如下图所示:


我们观察到当z->∞,g(z)将趋向于0。当z->-∞时,g(z)趋向于0。就像之前的做法一样,我们保留x0=1,即

目前,我们将采用上面给出的sigmoid函数。其他函数若能平滑得从0增长到1,同样可以被使用。但是,当我们在后面谈到广义线性模型时,我们将会看到使用sigmoid函数是一种相当自然的选择。在继续开始之前,我们先介绍一个相当有用的特性,当对sigmoid函数进行时:

那么,给定一个逻辑回归模型,如何来调整参数θ?首先我们假设:


上述式子可以形成一种更加紧凑的形式:


假设生成m个训练样本相互独立,我们可以写出关于参数θ的似然函数:


跟之前一样,将它转换为log似然函数:


接下来我们如何最大化似然函数呢?跟之前的线性回归推导过程一样,我们可以使用梯度下降。即:


我们首先使用一个训练样本(x, y),通过对似然函数求导,推导出随机梯度下降法则:


上式中,我们使用了g'(z)=g(z)(1-g(z))。最终得出随机梯度下降法则:


如果比较之前的LMS更新法则,我们发现它们看起来基本一致。但是它们并不属于相同的算法,因为hθ(x(i))现在被定义为一个非线性函数。尽管如此,我们还是惊讶于不同的学习算法竟然会得出相同的更新法则。这是巧合,还是背后隐藏着更深层次的原因?我们将在后面介绍广义线性模型中给出答案。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,264评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,549评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,389评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,616评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,461评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,351评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,776评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,414评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,722评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,760评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,537评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,381评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,787评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,030评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,304评论 1 252
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,734评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,943评论 2 336

推荐阅读更多精彩内容