机器学习-泛化误差与偏差bias与方差Variance

我们之所以需要拟合,就是因为我们难以甚至无法获得全部真实数据
如果我们可以获取完备的真实数据集,那么我们压根就不需要做拟合了,我们只要查询就好了。
所以,我们能获取的数据,以及能够用于训练的数据,只是真实数据的一部分,而且,我们也是假设,训练数据分布与真实数据独立同分布,所以训练数据越多,可以认为越接近真实分布。

我们用训练误差Err_{train}表示模型在训练集上表现好坏
用泛化误差Err_{test}表示模型在测试集上表现好坏

实际上,训练数据分布与真实数据分布是有一定偏差的,而且,数据本身也存在噪声。
这就暗示我们,如果我们只用训练数据去完美地拟合/训练一个模型M1即Err_{train-M1}=0,但它在实际测试数据上很可能是不完美甚至是很差的即Err_{test-M1}>>0,这就叫过拟合
而如果我们连训练数据都拟合地很差Err_{train}>>0,那在实际数据上一定也很差Err_{test}>>0,这就叫欠拟合

泛化误差

所谓泛化误差,即训练好的模型使用测试数据评测时的误差。
我们的根本目的是降低泛化误差,因为训练一个模型,其根本目的是用于预测未知数据而不是训练数据。
对于一个真实的训练任务,其样本值往往是由可解释的规律部分和不可解释的噪音组成的即
Y=f(x)+e
e可以认为是难以通过模型训练的噪音,我们往往会忽略(因为很小)
所以我们要拟合的部分是f(x),而不是去拟合Y(如果忽略e,那就是拟合Y)
用训练数据D训练的模型称之为\widehat f(x) 注意此处是戴帽子的f(x)
当我们使用相同的算法,但使用不同的训练数据D时就会得到多个\widehat f(x)
E(\widehat f(x))
代表了这个模型的期望,即使用某一算法训练模型所能得到的稳定的平均水平。

方差variance

var=E\bigg[(E(\widehat f(x))-\widehat f(x))^2\bigg]
代表了这个模型/算法的稳定性。我们称之为方差。
如果方差很大,则代表相同算法在不同训练数据上会得到相差很大的结果,这往往表示模型训练过拟合,不同的\widehat f(x)拟合曲线相差很大,这样就会导致对同一个测试样本,结果相差大。这表示数据的变化会给模型带来很大的扰动,就像打靶一样,射点不集中

偏差 bias


bias^2 = (E(\widehat f(x))-f(x))^2
此称为偏差bias。注意这里为何不再加一个期望符号E了呢,因为括号内两者都已经是定值了,而不是离散值。如果偏差很大,即这个此模型的平均水平与真实值相差太大,简单来说就是结果整体跑偏。就像打靶一样,射点整体偏离靶心。

泛化误差:

Err(x)=Err(\widehat f,f)+Err(Y,f)
对于泛化误差,是由模型的损失(这部分可以通过改善模型来减小)再加上不可解释的噪声(这是单纯数据的问题)带来的损失组成的。
当使用MSE作为损失函数的时候,有
那么有
\begin{alignedat}{} Err(x)&=Err(\widehat f,f)+Err(Y,f)\\ &=E\bigg[(f-\widehat f)^2\bigg] +E\bigg[(Y-f)^2\bigg] \\ &=E\bigg[((f-E(\widehat f))+(E(\widehat f)-\widehat f))^2\bigg]+\sigma_e^2\\ &=E\bigg[(f-E(\widehat f))^2+(E(\widehat f)-\widehat f)^2+2(f-E(\widehat f))(E(\widehat f)-\widehat f)\bigg]+\sigma_e^2\\ &=E[(f-E(\widehat f))^2]+E[(E(\widehat f)-\widehat f)^2]+E[2(f-E(\widehat f))(E(\widehat f)-\widehat f)]+\sigma_e^2\\ \end{alignedat}
注意第三项,(f-E(\widehat f))是一个固定值
所以第三项
\begin{alignedat}{2} &=E[2(f-E(\widehat f))(E(\widehat f)-\widehat f)]\\ &=2(f-E(\widehat f))E(E(\widehat f)-\widehat f)\\ &=2(f-E(\widehat f))[(E(\widehat f)-E(\widehat f)]\\ &=0 \end{alignedat}
所以
\begin{alignedat}{2} Err(x)&=E[(f-E(\widehat f))^2]+E[(E(\widehat f)-\widehat f)^2]+\sigma_e^2\\ &=(f-E(\widehat f))^2 + var + \sigma_e^2\\ &=bias^2 + var + \sigma_e^2 \end{alignedat}
即泛化误差由偏差,方差和不可解释的噪音组成。
我们能控制的就是偏差和方差,尽可能减少他们
也能看出,过拟合与bias和var有密切关系:

拟合程度 模型复杂度 bias var error 表现 改善
欠拟合 预测不准 提高模型复杂度,增加迭代,boosting,减小正则参数
过拟合 敏感易受扰动 降低模型复杂度,增加训练集数据,特征筛选,提高正则参数,bagging
好拟合 准而稳

参考
csdn1
blog1
PRML
bagging & var

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容