在总结具体的深度算法模型之前,我打算先梳理一下深度学习中常用的概念。
在梳理和写作过程中,会尽量配合公式和图形,解释的更加简单明了。但为了避免内容过于冗长,不作过多的基础的概念介绍和解释。
总之,本文主要目的总结知识点,构建整体框架认知,部分细节仍需花费时间阅读更多材料。
针对错误或不完整之处,会作不定期更新。
主要内容:
激活函数(Activation Functions)
反向传播(Backpropagation)
学习速率(Learning Rate)
最优化(Optimization)
参数初始化(Weight Initialization)
激活函数(Activation Functions)
为什么要用激活函数?
激活函数都是非线性函数,用来对输入作非线性变换,使模型增加非线性区分能力
如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。
使用后,激活函数给网络层注入了非线性因素,使得网络可以任意逼近任何非线性函数,这样网络就可以模拟非线性模型。
1. Sigmoid
sigmoid可以将一个实数映射到(0,1)区间,拥有很强的解释能力,可以用来做二分类。
缺点:
1.sigmoid容易发生过饱和、丢失梯度
2.sigmoid的输出不是零中心,梯度下降时抖动比较厉害
2.Tanh
取值范围为[-1,1]
tanh在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。
tanh 是零均值的,梯度下降事的性能优于sigmoid
3.Softmax
加入有多个选项a, b, c, ...,那么max函数会选取出现概率最大的一个,softmax不同之处在于,出现概率小的选项也有一定概率取到。
示意图:
4.ReLU
输入信号 <0 时,输出都是0,>0 的情况下,输出等于输入。衍生而出的激活函数有leaky ReLU, Parametric ReLU.ReLU是Maxout的一个特例。
优点:
1.使用 ReLU 得到的 SGD 的收敛速度会比 sigmoid/tanh 快很多。
2.能有效防止饱和现象。
3.Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
缺点:
训练时神经元容易'die',一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了。如果这个情况发生了,那么这个神经元的梯度就永远都会是0
实际操作中,如果learning rate 很大,那么很有可能网络中的40%的神经元都”dead”了。
当然,如果设置了一个合适的较小的learning rate,这个问题发生的情况其实也不会太频繁。
5.Binary
6.SoftPlus
7.Maxout
Maxout网络中,激活函数可以为任意分段函数,分段的数量取决于元素的个数。
反向传播(Backpropagation)
介绍:一种高效计算神经网络中权重梯度的算法。它从输出端开始,根据链式法则递归地向前计算梯度,一直到网络的输出端。
神经网络应用梯度下降法调优时,会涉及大量的梯度计算,如果用前向传播算法,会引起大量的权重梯度重复计算,而反向传播法,每个权重梯度只需计算一次。
关于复合函数链式法则,举两个例子:
学习速率(Learning Rate)
最小化损失函数时,需要沿着梯度的反方向更新权重,而学习速率正是描述更新的步伐的大小,如果步伐过大,可能导致“纠正过度”,反而增大误差损失;如果步伐过小,会导致收敛过慢。
如何合理的设定学习速率呢?
1.训练过程中,当验证误差不再下降时,令学习速率除以2
2.训练过程中,每隔一个或几个epoch,令学习速率以1/t的速度衰减,t是当前epoch数。
3.使用AdaGrad自动调节学习速率
给不同参数赋予不同学习速率
AdaGrad算法按照参数的历史梯度平方和的平方根的倒数来收缩学习率。
具有较大偏导的参数相应地有一个快速下降的学习率,而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。
AdaGrad算法倾向于给很少出现的特征更多的权重,因为这些权重更新的频率较低,从而累积的平方梯度较小。
算法流程和公式:
最优化(Optimization)
批量梯度下降法(Batch Gradient Descent)
是用来寻找函数最小值的一阶迭代最优算法。用梯度下降法时,先计算所在点的梯度,再使现有点朝着梯度的反方向移动一小段距离,不断迭代该过程,就能寻找到函数的局部最小值。梯度下降法每次更新参数时都会遍历所有样本数据。
随机梯度下降法(Stochastic Gradient Descent)
随机梯度下降法每次从训练数据中抽取一个样本进行更新,迭代次数很快,但会增加很多迭代次数,而且每次选取的方向不一定正确。
小批量梯度下降(Mini-batch Stochastic Gradient Descent)
批量梯度下降法综合了前两种方法的优势,每次选取少量样本(通常2~100个样本)进行更新,这样,既能增加迭代速度,又能使每次迭代的方向更加准确。
动量(Momentum)
如图,梯度下降法常常会陷入局部最小化,而动量正是解决该问题的一种方法。并且动量法可以加速学习。适合处理高曲率、小但一致的梯度,或是带噪声的梯度等。
更新动量的计算公式:
𝑣代表参数在参数空间的移动速度和方向。超参数𝛼决定了𝑣指数级衰减的速度,𝛼的取值一般为0.5,0.9或0.99等。后一项是参数𝜖乘以当前梯度,它负责给动量𝑣一定程度的调整:一方面,若当前梯度方向与速度𝑣方向一致, 𝑣增大,若当前梯度方向与速度𝑣方向相反, 𝑣减小;另一方面,随着梯度下降到后期,𝜖项的重要性大于𝛼项。
形象来说,当小球沿着误差超平面下滑时,首先,由于小球速度方向和所受合力方向一致,使得下降较快,当到达某一局部最小值的时候,受惯性影响,小球仍会朝着原有方向移动一段距离,从而有可能到达谷底。需要注意的是,动量法不保证达到全局最优,但是至少增大了到达全局最优的机会。
动量使得参数在梯度方向一致的维度上获得较大更新,在梯度方向改变的方向上获得较小更新。相比SGD,可以减少参数更新过程中代价函数的波动,获得更快的收敛速度。
参数初始化(Weight Initialization)
1.全部初始化为0
在理想情况下,数据被标准化,我们可以合理的假设一半的参数大于0,一半的参数小于0. 从期望角度,参数平均值的最佳估计为0,所以将所有的的参数初始化为0听上去是是个不错的想法。但是,这会导致一个后果,每个单元都会输出相同的结果,同理,在反向传播计算中,也会得到完全相同的梯度。换句话说,如果所有单元的权重都一样,那么输出就不会产生有区分能力的差异化信息。
2.用小的随机数初始化权重
这种方法下,会随机产生一批接近于0的随机数作为参数初始值。它具有以下优势:因为权重大小都接近0,因此大致符合理想情况下,参数平均值为0的假设;开始时,单元的权重都是随机的并且不会重复,所以每个单元的权重都会的到相应的更新,为降低整体误差作贡献。
初始的随机数可能由均值为0,标准差为1的正态分布产生,也可以由0到1上的均匀分布产生,这对最后模型的表现影响甚微,因此不必太过在意。
3.方差校准
随机初始化权重也会伴随着一个问题,单元的方差会随着输入维度的增加而不断增长。解决该问题的方法是,在第二步的基础上,用权重向量除以输入个数的平方根:
这样,输出单元的期望方差全部被控制为1。这种做法保证了,开始时网络中所有的输出单元都有着几乎相同的分布,经验上提升了网络的收敛率。