Pytorch_第八篇_深度学习 (DeepLearning) 基础 [4]---欠拟合、过拟合与正则化

深度学习 (DeepLearning) 基础 [4]---欠拟合、过拟合与正则化

Introduce

在上一篇“深度学习 (DeepLearning) 基础 [3]---梯度下降法”中我们介绍了梯度下降的主要思想以及优化算法。本文将继续学习深度学习的基础知识，主要涉及：

欠拟合和过拟合
正则化

以下均为个人学习笔记，若有错误望指出。

欠拟合和过拟合

要理解欠拟合和过拟合，我们需要先清楚一对概念，即偏差和方差。
偏差和方差是深度学习中非常有用的一对概念，尤其是可以帮助我们理解模型的欠拟合和过拟合。

偏差：模型对于训练集的拟合能力，通俗理解来说，偏差代表模型能够正确预测训练集的程度（也就是说，模型在训练集上表现出的精度）。偏差越高代表模型在训练集上的精度越低。
方差：模型对于除训练集之外其他数据的预测能力，即泛化能力。通俗理解来说，方差代表模型能够正确预测测试集的程度（也就是说，模型在测试集上表现出的精度）。方差越高代表模型在各测试集上的精度明显低于训练集上的精度。

理解了偏差和方差的概念之后，那模型欠拟合和过拟合又是什么呢？

欠拟合：对应于高偏差的情况，即模型不能很好地拟合训练数据，在训练集上的预测精度很低。如下图所示（蓝色线为预测的模型，可以发现并不能很好滴拟合训练数据）：

欠拟合

过拟合：对应于高方差的情况，即模型虽然在训练集上的精度很高，但是在测试集上的表现确差强人意。这是由于模型过度拟合了训练集，将训练集特有的性质当成了所有数据集的一般性质，导致其在其他数据集上的泛化能力特别差。如下图所示（蓝色线为预测的模型，可以发现似乎过度拟合了训练数据）：

过拟合
正确模型的拟合曲线如下图所示（与上面欠拟合和过拟合的曲线图对比，可以更好地帮助我们理解欠拟合和过拟合）：

正常拟合曲线

在理解了模型欠拟合和过拟合的概念之后，如果我们在训练模型的过程中遇到了这两类问题，我们怎么解决呢？

解决欠拟合：

(1) 使用更复杂的网络结构，如增加隐藏层数目，隐藏层结点数等。（因为神经网络如果层数和节点数足够的话，是可以模拟任何函数的）

(2) 训练更长时间，即增加神经网络模型的参数更新次数。（更新次数不够可能使得模型还没找到合适的参数使损失最小化，降低了模型精度）

(3) 使用其他更合适的神经网络架构，如前馈神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、深度信念网络(DBN)等等（后续将进一步学习各种类型的神经网络）；
解决过拟合：

(1) 使用更多的训练数据。（若是我们能把当前领域内所有的训练数据都拿来学习个够，那么我们的模型还会在这个领域的数据上表现差吗？不可能的，对吧！）

(2) 为模型添加正则化模块 (regularization)。（对于正则化概念以及为什么正则化能解决过拟合问题，在本文后续进行介绍）

(3) 使用其他更合适的神经网络架构。

对于以上策略一般的思考顺序，不论是欠拟合还是过拟合，当我们遇到了，都是优先考虑能不能使用上述中讲到的 (1) 和 (2) 来解决。如果不行的话再考虑 (3)，因为重构一个神经网络的话相对于其他解决方法开销比较大。

正则化

直观理解：正则化是用来防止模型过拟合的一种方法，其做法是通过在模型损失函数中加入一项正则项，使得其在训练数据拟合损失和模型复杂度中达到一种权衡。

通常加入正则化的损失函数为如下形式：

$loss = E_{loss} + {1\over \lambda}\sum_j|w_j|^q$
其中第一项为模型原本的损失函数，第二项
为正则化项，w为权值参数矩阵。若q=1，则为我们常用的L1正则化；若q=2，则为我们常用的L2正则化。

理解了正则化概念以及加入正则化的损失函数的形式之后，回归到一个更重要的问题，即为什么正则化能够防止模型过拟合呢？以下分别从三个角度来理解正则化在模型训练中的作用。

(1) 从模型拟合曲线的函数形式来看

为了回答上述问题，我们需要先理解过拟合情况下学习出来的拟合函数是什么样子的。可以看到上述过拟合部分的拟合曲线图（emm，就是扭来扭去的那张），图中的数据点实际上只需要一个二次函数就能够很好拟合了。但是从图中来看，过拟合情况下学习到的函数，肯定是大于二次的高次函数了。 假设该过拟合得到的函数为p次函数，如下所示：
$f = w_0 + w_1x + w_2x^2 + w_3x^3 + ... +w_px^p$
实际上正确的拟合函数为二次函数，如下所示：
$f = w_0 + w_1x + w_2x^2$
我们可以发现，要是我们能够更新权值参数w，使得w中的w₀、w₁和w₂非0，而其余的权值均为0的话，我们是可以得到一个能够比较好地拟合上述曲线的模型的。而正则化就是起到上述这个作用（让一些不必要的权值参数为0），从而来防止模型过拟合的。

(2) 从神经网络模型的复杂度来看

现在回过头来看上述对于正则化的直观理解，里面有讲到模型复杂度，那模型复杂度是什么呀？我们可以将其通俗理解成权值参数的个数，因为网络的权值参数越多代表着神经网络更庞大（拥有更多的层和更多的节点以及更多的边），自然而然模型就更复杂了（如果网络中某条边的权重w为0的话，那这条边不就没了嘛，那模型不就更简单一些了嘛，这就是正则化要做的事吧，以上为个人理解）。

(3) 从加了正则化项的损失函数来看

现在再来看上述加入正则化的损失函数的一般形式，第一项为原本的损失函数，第二项为正则化项。以下分为两点来进行分析：

假设没有添加正则化项的话，模型训练的结果会使得损失函数尽可能小，也就是说使得模型拟合训练样本集的能力最大化，这就可能导致模型将训练样本集的一些特殊性质当成数据的普遍性质，使得模型泛化能力差，从而导致过拟合现象。
假设添加了正则项，正则项起到什么作用了？首先我们的目标是最小化损失函数，从某种程度上也需要最小化正则项，而由上述L1、L2正则项的形式来看，最小化正则项无非是把其中的某些不重要的权值参数w_i设置为0，或者设置一个比较小的值。因此从这个层面上来理解，正则化也是通过将某些不重要权值参数设置为0来防止过拟合的。

需要说明的是：虽然L1正则化和L2正则化都可以防止模型过拟合，但是L1正则化相比于L2正则化会更容易产生稀疏权值矩阵（也就是说，权值矩阵中更多的权值为0）。至于原因，由于个人能力问题，可能解释不太清楚，可以参考知乎问题--L1 相比于 L2 为什么容易获得稀疏解？

本文参考-1

本文参考-2

本文参考-3

最后编辑于：2020.08.25 09:46:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

Pytorch_第八篇_深度学习 (DeepLearning) 基础 [4]---欠拟合、过拟合与正则化

深度学习 (DeepLearning) 基础 [4]---欠拟合、过拟合与正则化

Introduce

欠拟合和过拟合

正则化

推荐阅读更多精彩内容