13.2 模型拟合度概念介绍与欠拟合模型的结构调整策略

13.2_0001.png

13.2_0002.png

13.2_0003.png

13.2_0004.png

13.2_0005.png

13.2_0006.png

13.2_0007.png

13.2_0008.png

13.2_0009.png

13.2_0010.png

13.2_0011.png

13.2_0012.png

13.2_0013.png

13.2_0014.png

13.2_0015.png

13.2_0016.png

13.2_0017.png

13.2_0018.png

13.2_0019.png

13.2_0020.png

13.2_0021.png

13.2_0022.png

13.2_0023.png

13.2_0024.png

13.2_0025.png

13.2_0026.png

13.2_0027.png

13.2_0028.png

13.2_0029.png

13.2_0030.png

13.2_0031.png

13.2_0032.png

13.2_0033.png

误区：损失函数从始至终都不变，梯度下降迭代过程就是“从山顶走到山脚”，一步步找到最小值；
问题：为何迭代过程中损失函数下降，但模型评估指标却出现波动。

我们通过手动实例进行说明。首先创建一组数据如下：

x	y
1	2
3	5
6	4
8	3

我们使用 $y=wx$ 方程对其进行拟合，并以SSE作为损失函数。假设我们使用小批量梯度下降，每次带入两条数据进行损失函数计算，第一次带入前两条数据、第二次带入后两条数据，则第一轮epoch的第一次迭代过程中损失函数如下：

$\begin{align} SSE_{(1)} & = (2-1*w)^2 + (5-3*w)^2 \\ & = w^2-4w+4+9w^2-30w+25 \\ & = 10w^2-34w+29 \end{align}$

据此可以算得当前梯度公式如下：

1692543705323.png

迭代过程我们要求每一次迭代损失函数都降低，但通过观察上述过程不难发现，第一轮epoch迭代第一次时， $SSE_1$ 能够顺利降低，但 $SSE_2$ 和 $SSE$ 并不一定，同理，第一轮epoch迭代第二次时， $SSE_2$ 能够顺利降低，但 $SSE_1$ 和 $SSE$ 并不一定。虽然我们相信数据整体特性应该保持一致，大概率来说其中一个损失函数减少，其他损失函数也会减少，但毕竟方程不同，这其中确实也存在着一定的不确定性。我们可以通过以下代码进行实验。

# SSE1损失函数计算函数
def loss_sse1(x):
    loss1 = 10 * x * x - 34 * x + 29
    return loss1

# SSE2损失函数计算函数
def loss_sse2(x):
    loss2 = 100 * x * x - 96 * x + 25
    return loss2

# SSE损失函数计算函数
def loss_sse(x):
    loss = 110 * x * x - 100 * x + 54
    return loss

# SSE1的梯度计算函数
def g1(x):
    grad1 = 20 * x - 34
    return grad1

# SSE2的梯度计算函数
def g2(x):
    grad2 = 200 * x - 96
    return grad2


# 定义核心参数
w = 0                      # w的初始取值
lr = 0.01                  # 模型学习率
num_epochs = 20            # 迭代轮数

# 创建空列表容器
w_l = [0]                  # w迭代过程取值
loss_l = []                # 整体SSE取值
loss1_l = []               # SSE1取值
loss2_l = []               # SSE2取值


for i in range(num_epochs):
    loss_l.append(loss_sse(w))         # 每一轮迭代开始前计算整体SSE
    loss1_l.append(loss_sse1(w))       # 每一轮第一次迭代开始前计算SSE1
    w -= lr * g1(w)                    # 每一轮的第一次迭代
    w_l.append(w)                      # 每一轮第一次迭代后储存w
    loss1_l.append(loss_sse1(w))       # 每一轮第一次迭代后计算SSE1
    loss2_l.append(loss_sse2(w))       # 每一轮第二次迭代开始前计算SSE2
    w -= lr * g2(w)                    # 每一轮第二次迭代
    w_l.append(w)                      # 每一轮第二次迭代后储存w
    loss2_l.append(loss_sse2(w))       # 每一轮第二次迭代后计算SSE2

loss_l.append(loss_sse(w))             # 训练完成后存储最终w

# 绘图部分
# 查看整体SSE变化情况
plt.subplot(311)
plt.plot(list(range(num_epochs+1)), loss_l)
# 查看SSE1变化情况
plt.subplot(312)
plt.plot(list(range(num_epochs*2)), loss1_l)
# 查看SSE2变化情况
plt.subplot(313)
plt.plot(list(range(num_epochs*2)), loss2_l)

1692543801640.png

从上述结果能够看出，每一轮的内部两次迭代，对于SSE1和SSE2来说都是降低的，但每一轮之间SSE1和SSE2都会出现波动，原因也是因为其他的损失函数计算出来的w不一定能有效帮助当前损失函数降低取值，当然整体SSE也是在波动中趋于稳定的。由此我们就能够明白为何在模型训练过程中，明明应该“整体向好”，但不管是损失函数还是模型指标，都可能出现波动的情况。

当然，除了上面所说的，由于小批量梯度下降每次带入的数据不同从而导致损失函数不同进而导致模型结果波动以外，还有一种可能也会导致模型结果波动，那就是目标函数和模型评估指标不一致。这种情况在分类问题中非常常见，常见的分类问题中损失函数是交叉熵损失函数，代表极大似然估计的概率值，而模型评估指标是准确率，代表最终预测准确的个数占比，而在实际建模过程中，确实有可能存在极大似然估计概率值增加但准确率不变甚至降低的情况（牺牲了某条数据的判别结果但换来了其他很多条数据的极大似然估计概率值大幅提升），从而导致训练过程模型评估指标波动。

关于小批量梯度下降算法捕捉局部规律的讨论:
其实带入部分数据还是带入全部数据，其实都是相对的。在小批量梯度下降中，某一次迭代虽然是带入了全部训练数据集的一部分，但如果我们把这部分数据看成全部，就相当于是带入了全部数据进行训练。所有的训练都是为了捕捉规律，因此我们可以把某一次迭代看成是模型在捕捉这一部分数据的“全部规律”，但由于这部分数据只是所有训练数据的一部分，因此模型还只是捕捉了局部规律。从这个角度来说，小批量梯度下降是希望通过捕捉一个个“小批”数据的局部规律最终构成整个数据集的整体规律。

关于小批量梯度下降算法有效性的讨论:
而为何通过捕捉局部规律最后能够更好的把握整体规律呢？从实际运算结果来看是因为小批量梯度下降能够跨越局部最小值点，而根本原因则是对于某些“小批”数据来说，由于局部规律和整体规律存在差异性，整体的局部最小值点对于当前“小批”数据来说根本就不是局部最小值点（毕竟不同数据的损失函数不同），因此带入该“小批”数据时候就有可能直接跨越该点，也就是说，小批量梯度下降无法跨越小批数据对应的损失函数的最小值点，但在下降的过程中却有可能偶然帮助整体损失函数跨越最小值点，这就是借助随机性解决问题的典型。

随机性其实是把双刃剑：
当我们借助随机性解决问题的时候，同样也会面临随机性带来的麻烦，由于一旦开始随机，整个迭代过程都会变得不可控，此后我们只能通过各种方法将这个随机过程尽可能按照我们的意愿执行，这也就是一系列的优化方法的由来。

最后编辑于：2023.08.20 23:05:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

13.2 模型拟合度概念介绍与欠拟合模型的结构调整策略

推荐阅读更多精彩内容