深度学习常用概念总结(一)

在总结具体的深度算法模型之前,我打算先梳理一下深度学习中常用的概念。
在梳理和写作过程中,会尽量配合公式和图形,解释的更加简单明了。但为了避免内容过于冗长,不作过多的基础的概念介绍和解释。
总之,本文主要目的总结知识点,构建整体框架认知,部分细节仍需花费时间阅读更多材料。
针对错误或不完整之处,会作不定期更新。


主要内容:

激活函数(Activation Functions)

反向传播(Backpropagation)

学习速率(Learning Rate)

最优化(Optimization)

参数初始化(Weight Initialization)


激活函数(Activation Functions)

为什么要用激活函数?

激活函数都是非线性函数,用来对输入作非线性变换,使模型增加非线性区分能力

如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。
使用后,激活函数给网络层注入了非线性因素,使得网络可以任意逼近任何非线性函数,这样网络就可以模拟非线性模型。

1. Sigmoid

sigmoid可以将一个实数映射到(0,1)区间,拥有很强的解释能力,可以用来做二分类。

缺点
1.sigmoid容易发生过饱和、丢失梯度

2.sigmoid的输出不是零中心,梯度下降时抖动比较厉害

2.Tanh

取值范围为[-1,1]

tanh在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。

tanh 是零均值的,梯度下降事的性能优于sigmoid

3.Softmax

加入有多个选项a, b, c, ...,那么max函数会选取出现概率最大的一个,softmax不同之处在于,出现概率小的选项也有一定概率取到。

示意图:


4.ReLU

输入信号 <0 时,输出都是0,>0 的情况下,输出等于输入。衍生而出的激活函数有leaky ReLU, Parametric ReLU.ReLU是Maxout的一个特例。

优点:
1.使用 ReLU 得到的 SGD 的收敛速度会比 sigmoid/tanh 快很多。

2.能有效防止饱和现象。

3.Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。

缺点:
训练时神经元容易'die',一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了。如果这个情况发生了,那么这个神经元的梯度就永远都会是0

实际操作中,如果learning rate 很大,那么很有可能网络中的40%的神经元都”dead”了。

当然,如果设置了一个合适的较小的learning rate,这个问题发生的情况其实也不会太频繁。

5.Binary

6.SoftPlus

7.Maxout


Maxout网络中,激活函数可以为任意分段函数,分段的数量取决于元素的个数。


反向传播(Backpropagation)

介绍:一种高效计算神经网络中权重梯度的算法。它从输出端开始,根据链式法则递归地向前计算梯度,一直到网络的输出端。

神经网络应用梯度下降法调优时,会涉及大量的梯度计算,如果用前向传播算法,会引起大量的权重梯度重复计算,而反向传播法,每个权重梯度只需计算一次。

关于复合函数链式法则,举两个例子:


image.png

image.png

学习速率(Learning Rate)

最小化损失函数时,需要沿着梯度的反方向更新权重,而学习速率正是描述更新的步伐的大小,如果步伐过大,可能导致“纠正过度”,反而增大误差损失;如果步伐过小,会导致收敛过慢。

如何合理的设定学习速率呢?

1.训练过程中,当验证误差不再下降时,令学习速率除以2
2.训练过程中,每隔一个或几个epoch,令学习速率以1/t的速度衰减,t是当前epoch数。
3.使用AdaGrad自动调节学习速率

给不同参数赋予不同学习速率

AdaGrad算法按照参数的历史梯度平方和的平方根的倒数来收缩学习率。

具有较大偏导的参数相应地有一个快速下降的学习率,而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。

AdaGrad算法倾向于给很少出现的特征更多的权重,因为这些权重更新的频率较低,从而累积的平方梯度较小。

算法流程和公式:

最优化(Optimization)

批量梯度下降法(Batch Gradient Descent)

是用来寻找函数最小值的一阶迭代最优算法。用梯度下降法时,先计算所在点的梯度,再使现有点朝着梯度的反方向移动一小段距离,不断迭代该过程,就能寻找到函数的局部最小值。梯度下降法每次更新参数时都会遍历所有样本数据。

随机梯度下降法(Stochastic Gradient Descent)

随机梯度下降法每次从训练数据中抽取一个样本进行更新,迭代次数很快,但会增加很多迭代次数,而且每次选取的方向不一定正确。

小批量梯度下降(Mini-batch Stochastic Gradient Descent)

批量梯度下降法综合了前两种方法的优势,每次选取少量样本(通常2~100个样本)进行更新,这样,既能增加迭代速度,又能使每次迭代的方向更加准确。

动量(Momentum)

如图,梯度下降法常常会陷入局部最小化,而动量正是解决该问题的一种方法。并且动量法可以加速学习。适合处理高曲率、小但一致的梯度,或是带噪声的梯度等。

更新动量的计算公式:


𝑣代表参数在参数空间的移动速度和方向。超参数𝛼决定了𝑣指数级衰减的速度,𝛼的取值一般为0.5,0.9或0.99等。后一项是参数𝜖乘以当前梯度,它负责给动量𝑣一定程度的调整:一方面,若当前梯度方向与速度𝑣方向一致, 𝑣增大,若当前梯度方向与速度𝑣方向相反, 𝑣减小;另一方面,随着梯度下降到后期,𝜖项的重要性大于𝛼项。

形象来说,当小球沿着误差超平面下滑时,首先,由于小球速度方向和所受合力方向一致,使得下降较快,当到达某一局部最小值的时候,受惯性影响,小球仍会朝着原有方向移动一段距离,从而有可能到达谷底。需要注意的是,动量法不保证达到全局最优,但是至少增大了到达全局最优的机会。

动量使得参数在梯度方向一致的维度上获得较大更新,在梯度方向改变的方向上获得较小更新。相比SGD,可以减少参数更新过程中代价函数的波动,获得更快的收敛速度。

参数初始化(Weight Initialization)

1.全部初始化为0

在理想情况下,数据被标准化,我们可以合理的假设一半的参数大于0,一半的参数小于0. 从期望角度,参数平均值的最佳估计为0,所以将所有的的参数初始化为0听上去是是个不错的想法。但是,这会导致一个后果,每个单元都会输出相同的结果,同理,在反向传播计算中,也会得到完全相同的梯度。换句话说,如果所有单元的权重都一样,那么输出就不会产生有区分能力的差异化信息。

2.用小的随机数初始化权重

这种方法下,会随机产生一批接近于0的随机数作为参数初始值。它具有以下优势:因为权重大小都接近0,因此大致符合理想情况下,参数平均值为0的假设;开始时,单元的权重都是随机的并且不会重复,所以每个单元的权重都会的到相应的更新,为降低整体误差作贡献。

初始的随机数可能由均值为0,标准差为1的正态分布产生,也可以由0到1上的均匀分布产生,这对最后模型的表现影响甚微,因此不必太过在意。

3.方差校准

随机初始化权重也会伴随着一个问题,单元的方差会随着输入维度的增加而不断增长。解决该问题的方法是,在第二步的基础上,用权重向量除以输入个数的平方根:



这样,输出单元的期望方差全部被控制为1。这种做法保证了,开始时网络中所有的输出单元都有着几乎相同的分布,经验上提升了网络的收敛率。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容