一、引言
机器学习领域有个很重要的假设:IID 独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。
简单来说:BatchNorm 就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。
二、internal Covariate Shift
随着训练的进行,网络中的参数也随着梯度下降在不停更新。一方面,当底层网络中参数发生微弱变化时,由于每一层中的线性变换与非线性激活映射,这些微弱变化随着网络层数的加深而被放大(类似蝴蝶效应);另一方面,参数的变化导致每一层的输入分布会发生改变,进而上层的网络需要不停地去适应这些分布变化,使得我们的模型训练变得困难。上述这一现象叫做 Internal Covariate Shift。
较规范的定义为:在深层网络训练的过程中,由于网络中参数变化而引起内部结点数据分布发生变化的这一过程。
ICV 问题带来的问题
- 上层网络需要不停调整来适应输入数据分布的变化,导致网络学习速度的降低。
- 网络的训练过程容易陷入梯度饱和区,减缓网络收敛速度。
对于激活函数梯度饱和问题,有两种解决思路。第一种就是更为非饱和性激活函数,例如线性整流函数 ReLU 可以在一定程度上解决训练进入梯度饱和区的问题。另一种思路是,我们可以让激活函数的输入分布保持在一个稳定状态来尽可能避免它们陷入梯度饱和区,这也就是 Normalization 的思路。
如何减缓 ICV 问题?
ICS产生的原因:是由于参数更新带来的网络中每一层输入值分布的改变,并且随着网络层数的加深而变得更加严重,因此我们可以通过固定每一层网络输入值的分布来对减缓ICS问题。
- 白化(Whitening)
白化(Whitening)是机器学习里面常用的一种规范化数据分布的方法,主要是 PCA 白化与 ZCA 白化。白化是对输入数据分布进行变换,进而达到以下两个目的:
- 使得输入特征分布具有相同的均值与方差。其中PCA白化保证了所有特征分布均值为0,方差为1;而ZCA白化则保证了所有特征分布均值为0,方差相同;
- 去除特征之间的相关性。
- Batch Normalization
三、BatchNorm的本质思想
本质思想:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。因为梯度一直都能保持比较大的状态,所以很明显对神经网络的参数调整效率比较高,就是变动大,就是说向损失函数最优值迈动的步子大,也就是说收敛地快。
但是通过 BN 之后,不就是把非线性函数替换成线性函数效果了,一方面,意味着网络的表达能力下降了。另一方面,通过让每一层的输入分布均值为0,方差为1,会使得输入在经过 sigmoid 或 tanh 激活函数时,容易陷入非线性激活函数的线性区域。因此加入了两个参数 scale 和 shift。公式如下:
四、训练阶段的 BatchNorm
要对每个隐层神经元的激活值做BN,可以想象成每个隐层又加上了一层BN操作层,它位于X=WU+B激活值获得之后,非线性函数变换之前,其图示如下:
BN其具体操作流程,如论文中描述的一样:
BatchNorm 的预测过程
BN在训练的时候可以根据 Mini-Batch 里的若干训练实例进行激活数值调整,但是在预测的过程中,很明显输入就只有一个实例,看不到 Mini-Batch 其它实例,那么这时候怎么对输入做 BN 呢?因为很明显一个实例是没法算实例集合求出的均值和方差的。
解决方案:从所有训练实例中获得的统计量均值和方差来代替 Mini-Batch 里面 m 个训练实例获得的均值和方差统计量。所以,在预测的时候直接用全局统计量即可。
决定了获得统计量的数据范围,那么接下来的问题是如何获得均值和方差的问题。很简单,因为每次做 Mini-Batch 训练时,都会有那个 Mini-Batch 里 m 个训练实例获得的均值和方差,现在要全局统计量,只要把每个 Mini-Batch 的均值和方差统计量记住,然后对这些均值和方差求其对应的数学期望即可得出全局统计量,即:
五、BN 的优势
Batch Normalization 在实际工程中被证明了能够缓解神经网络难以训练的问题,BN 具有的优势可以总结为以下三点:
- BN 使得网络中每层输入数据的分布相对稳定,加速模型学习速度。
- BN 使得模型对网络中的参数不那么敏感,简化调参过程,使得网络学习更加稳定。
在使用Batch Normalization之后,抑制了参数微小变化随着网络层数加深被放大的问题,使得网络对参数大小的适应能力更强,此时我们可以设置较大的学习率而不用过于担心模型divergence的风险。
- BN 允许网络使用饱和性激活函数(例如sigmoid,tanh等),缓解梯度消失问题。
- BN具有一定的正则化效果。