5. 深度学习-正则化

  • 我们知道建立的模型,期望结构风险最小化,结构风险包括经验风险和置信风险,也就是我们的目标函数有两项组成,第一项为损失函数,第二项为正则化项(惩罚项)。前一篇已经介绍过损失函数了,这里不再介绍,本节主要介绍正则化项,正则化的目的主要是降低模型的复杂度(降低vc维),防止过拟合。

  • 目标函数形式:

    • J=arg(min_{w}\sum_{i=1}^{i=n}L(y_{i},f(x_{i};w))+\lambda \Omega (w))
  • 一般来说,正则化项就是模型参数向量w的范数。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。它将参数趋于零的方向进行调整。不同的范数对参数w的约束不同,取得效果也不同。

L1范数

  • 假设向量X=(x_{1},x_{2},x_{3},...,x_{n}),其L1范数公式:
    • \left \| x \right \|=\left | x_{1} \right |+\left | x_{2} \right |+...\left | x_{n} \right |
  • L1范数,\left \| W \right \|_{1},也叫Lasso回归。它是指向量的各个元素的绝对值求和,也称为'稀疏规划算子'。为什么它会是模型的参数稀疏的? 模型过于复杂是因为模型尝试去兼顾各个测试数据点, 导致模型函数处于一种动荡的状态, 即使在很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,为了减小导数,我们添加惩罚让模型处于平缓。
  • 惩罚力度加大,模型的参数会有一部分等于0

L2范数

    • 假设向量X=(x_{1},x_{2},x_{3},...,x_{n}),其L2范数公式:
      • \left \| X \right \|_{2}=(x_{1}^{2}+x_{2}^{2}+x_{3}^{2}+...+x_{n}^{2})^{1/2}
  • L2范数,\left \| W \right \|_{2},也成为岭回归(Ridge Regression),也有人称之为‘权重衰减’。它是指向量的各个元素的平方和然后再求平方根。
  • 与L1不同的,L2范数使权重都接近于0,但是不等于0;
  • 从优化的角度来说,L2范数有助于模型优化求解变得稳定和快速;
  • 从贝叶斯先验的角度,加入正则化项相当于加入一种先验,先验知识会引导求解损失函数最小值过程时,朝着约束方向迭代。L1范数相当于加入了一个Laplacean先验,L2范数相当于加入了一个Gaussian先验。整个最优化问题可以看做是一个最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计。

核范数

  • 核范数,\left \|W \right \|_{*}是指矩阵奇异值的和,它的作用是约束低秩。矩阵的秩可以度量矩阵的相关性,而矩阵的相关性实际上带有矩阵的结构化信息。换句话说,可以用更低维的线性子空间来表示原有的信息。
  • 如果一个矩阵的秩远远小于其维数必然含有大量的冗余信息,利用冗余信息可以对缺失数据进行恢复,可可以对数据进行特征提取
  • 核范数的主要应用
    • 矩阵填充。矩阵填充常用于推荐系统,先建立不同用户对以购买过的不同商品的评价矩阵,利用低秩重构对矩阵进行填充,从而可以预测用户对未购买过的商品的喜欢程度。
    • 鲁棒PCA。主成分分析就是找出数据中最主要的元素和结构,去除噪声和冗余信息,对数据进行降维,揭示隐藏在复杂数据中的简单结构。而鲁棒的PCA考虑的是一般数据矩阵包含结构信息和噪声,因此我们可以将这个矩阵分解为两个矩阵相加,一个含有主要的结构信息,另一个含有噪声(稀疏矩阵)。
  • 比如含有同一张人脸的多张图片,每张图片由于拍摄背景不同,如果将一副图片的矩阵数据压缩成一个行向量,多张图片就构成一个大矩阵,这个矩阵必然线性相关,我们此时可以对矩阵进行分解,分解成低秩矩阵(主要的结构信息)和稀疏矩阵(噪声信息)的和。

对于激活函数,损失函数,正则化的总结

  • 激活函数用于神经网络层与层之间的非线性映射,保证了神经网络的非线性的特性,常常激活函数都是非线性的。
  • 损失函数是用于衡量预测值与真实值之间的差异,也就是经验风险。如果是二分类的任务,常常选择交叉熵损失函数和Sigmoid激活函数;如果是互斥的多分类任务,常常选择对数似然损失函数和Softmax激活函数;如果是非互斥的多分类任务,需要对标记进行处理,转化为多个二分类任务;如果是回归任务,常常损失函数选择均方误差函数。
  • 分类函数是神经网络输出层的激活函数,常常任务需求固定,也就意味着我们的分类函数也固定了。比如反欺诈的需求,我们的目的是识别出非欺诈和欺诈的且一个案件要么是非欺诈的,要么是欺诈的,两者只能取其一。明显是一个二分类任务,那么我们的分类函数选择sigmoid函数。
  • 目标函数是模型训练过程中的总目标,也就是让结构风险最小化。常常结构风险包含经验风险和置信风险,也就是损失函数和正则化项。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容