第三课欠拟合与过拟合的概念

本讲大纲：

课程大纲

</br>

1.局部加权线性回归（locally weighted linear regression）

给定一个数据集，根据x预测y.

数据集

最左边的函数为

左边函数，线性

并不能很好的拟合数据；中间的加了一个额外的特性

二次项

，函数为

这里写图片描述

，稍微更好地拟合了数据；似乎我们增加越多的特性，拟合程度越好；但是增加太多的特性是很危险的，最右边的图是一个五阶的多项式

这里写图片描述

，虽然很好的拟合了给定的数据集，但是这个并不是一个很好的预测函数。

欠拟合（underfitting）：很明显有一些没有被模型捕获的结构，比如说最左边的图.
过拟合(overfitting)：最右边的就是一个过拟合的例子.

因此说，特性的选择对于学习算法的性能来说是很重要的！！！ 但是用局部加权线性回归算法，可以不用那么小心地去选择特征。
在原先的线性回归算法中，对查询点x做预测，我们：

这里写图片描述

而局部加权线性回归算法是（只考虑这个点邻近的点的误差，使他最小。相当于在不同的小区域拟合出小的直线段）：

这里写图片描述

其中，

这里写图片描述

是非负值的权重。对权重的一个标准选择是：

这里写图片描述

当

这里写图片描述

很小时，权重接近于1；当

这里写图片描述

很大时，权重很小，接近于0. 因此，

这里写图片描述

的选择是训练集中越接近查询点的样本权重越大. 参数

这里写图片描述

控制着样本集离查询点距离权重下降的快慢，称为波长参数.
非参数化学习算法（non-parametric learning algorithm）： 为了更好的展现假设，我们需要考虑的东西的数量随着训练集而线性增长（局部权重加权回归算法是我们学习的非参数学习算法的第一个例子）. 参数化学习算法（parametric learning algorithm）: 拟合数据只需要固定的、有限的参数（线性回归算法）.

</br>

2.概率解释（probabilistic interpretation）

在回归问题中，为什么选择最小二乘法，是否合理？

假设目标变量和输入的关系如下：

表示误差项，不管是建模过程中没有考虑进来的因素，还是一些随机的因素；根据高斯分布（Gaussian distribution）或者叫做正态分布(Normal distribution),再假设

是IID(independently and identically distributed)(表示他们的均值和方差都服从高斯分布), 也就是说，

正态分布

，

误差的概率分布

等价于：

这里写图片描述

注意，

这里写图片描述

的意思是在参数

这里写图片描述

的情况下，给定x，y的分布，

这里写图片描述

并不是随机变量.

似然函数（likelihood function）:

似然函数

其实就是条件概率，但是强调的是这个条件概率在xy固定时，其实是theta的函数。
注意到误差项的独立同分布假设，对所有给定的X,有：

这里写图片描述

根据最大似然估计原则（选择参数，使我们需要的数据出现的概率最大），我们应该选择适当的theta最大化

这里写图片描述

.
为了计算方便，对极大似然函数取对数，

这里写图片描述

问题转化为最小化

需要最小化的项

这也就是我们最初的最小二乘法的代价函数.
注意到我们的最终结果与

这里写图片描述

无关.

</br>

3.逻辑回归（logistic regression）

分类（classification）：也类似于回归(regression)问题，只是y的取值是一小部分的离散值.这边我们暂时先考虑二元的分类问题(binary classification，也就是说y只有两个取值,0和1.
为了了解分类问题，先忽略y是一个离散值，使用线性回归算法来预测y. 但是很容易发现的问题是y有可能出现大于1或者小于0的值，因此我们改变假设函数为：

假设函数

称为逻辑函数(logistic function)或者s型函数（sigmoid function）.
下面是g(z)的图像：

逻辑函数

logistic 函数一个有用的求导特性：

这里写图片描述

假设：

这里写图片描述

等价于：

这里写图片描述

假设m个训练样本是单独产生的，于是取对数得：

这里写图片描述

为了找到theta的值，根据极大似然，需要使这项最大化。类似于在线性回归中的求导，可以使用梯度上升(gradient ascent)(因为是正号，因此是最大化不是最小化).

这里写图片描述

考虑一个样本，根据梯度上升原则求偏导：

屏幕快照 2016-12-07 下午10.48.59.png

因此

参数theta的值

</br>

4.感知器算法（the perceptron learning algorithm）

如果需要改变logistic回归方法使得输出是0或1（离散），定义临界函数（threshold function）:

这里写图片描述

令

这里写图片描述

，但是用这个函数定义g，因此：

这里写图片描述

这就是感知器学习算法.

最后编辑于：2017.12.05 00:27:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

第三课 欠拟合与过拟合的概念

本讲大纲：

1.局部加权线性回归（locally weighted linear regression）

2.概率解释（probabilistic interpretation）

3.逻辑回归（logistic regression）

4.感知器算法（the perceptron learning algorithm）

推荐阅读更多精彩内容

第三课欠拟合与过拟合的概念