论文阅读:《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》
Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问。机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。
一、“Internal Covariate Shift”问题
从论文名字可以看出,BN是用来解决“Internal Covariate Shift”问题的,那么首先得理解什么是“Internal Covariate Shift”?论文首先说明Mini-Batch SGD相对于One Example SGD的两个优势:梯度更新方向更准确;并行计算速度快;(为什么要说这些?因为BatchNorm是基于Mini-Batch SGD的,所以先夸下Mini-Batch SGD,当然也是大实话);然后吐槽下SGD训练的缺点:超参数调起来很麻烦。(作者隐含意思是用BN就能解决很多SGD的缺点)
接着引入covariate shift的概念:如果ML系统实例集合<X,Y>中的输入值X的分布老是变,这不符合IID假设,网络模型很难稳定的学规律,这不得引入迁移学习才能搞定吗,我们的ML系统还得去学习怎么迎合这种分布变化啊。对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。
然后提出了BatchNorm的基本思想:能不能让每个隐层节点的激活输入分布固定下来呢?这样就避免了“Internal Covariate Shift”问题了。
BN不是凭空拍脑袋拍出来的好点子,它是有启发来源的:之前的研究表明如果在图像处理中对输入图像进行白化(Whiten)操作的话——所谓白化,就是对输入数据分布变换到0均值,单位方差的正态分布——那么神经网络会较快收敛,那么BN作者就开始推论了:图像是深度神经网络的输入层,做白化能加快收敛,那么其实对于深度网络来说,其中某个隐层的神经元是下一层的输入,意思是其实深度神经网络的每一个隐层都是输入层,不过是相对下一层来说而已,那么能不能对每个隐层都做白化呢?这就是启发BN产生的原初想法,而BN也确实就是这么做的,可以理解为对深层神经网络每个隐层神经元的激活值做简化版本的白化操作。
现在BN基本上成为CNN类网络的标配,它通过缩放每一层Feature map值至均值0,方差1,让Feature map的分布在训练过程中不要发生大的变化,以此来加速网络的收敛。论文提到,这个就是受CV里面“白化Whitening”的启发,Whitening在很多图像处理中运用。
二、BatchNorm的本质思想
BN的基本思想其实相当直观:因为深层神经网络在做非线性变换前的激活输入值(就是那个x=WU+B,U是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值WU+B是大的负值或正值),所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,意思是这样让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
其实一句话就是:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。因为梯度一直都能保持比较大的状态,所以很明显对神经网络的参数调整效率比较高,就是变动大,就是说向损失函数最优值迈动的步子大,也就是说收敛地快。BN说到底就是这么个机制,方法很简单,道理很深刻。
BN在训练过程和推理过程计算步骤是一样的,区别在于均值方差的来源。训练时来自于当前mini-batch统计而来;而推理时是通过整个之前的训练过程得到,因此是fix的。对于Mini-Batch SGD来说,一次训练过程里面包含m个训练实例,其具体BN操作就是对于隐层内每个神经元的激活值来说,进行如下变换:
这里t层某个神经元的x(k)不是指原始输入,就是说不是t-1层每个神经元的输出,而是t层这个神经元的线性激活x=WU+B,这里的U才是t-1层神经元的输出。变换的意思是:某个神经元对应的原始的激活x通过减去mini-Batch内m个实例获得的m个激活x求得的均值E(x)并除以求得的方差Var(x)来进行转换。
经过这个变换后某个神经元的激活x形成了均值为0,方差为1的正态分布,目的是把值往后续要进行的非线性变换的线性区拉动,增大导数值,增强反向传播信息流动性,加快训练收敛速度。但是这样会导致网络表达能力下降,为了防止这一点,每个神经元增加两个调节参数(scale和shift),这两个参数是通过训练来学习到的,用来对变换后的激活反变换,使得网络表达能力增强,即对变换后的激活进行如下的scale和shift操作,这其实是变换的反操作:
BN在训练阶段的前向过程如下:
Mini-batch就是指在一个计算device上,一次计算的图片张数(假设数据是图片),在这个Mini-batch上统计出均值mean、方差variance,然后做normalize,最后为了让Feature Map可以缩放,又重新引入了较为简单的和。在数量上,每一个输出的channel会各有1个mean,var,和。BN的训练反向如果不想细看也可以不看,因为BN整个过程是可微的,因此在当前的framework下都可以自动完成反向传播。过程如下:
BN所处的位置:一般是紧跟在Conv或者FC层之后,激活函数之前,即Conv - BN - Scale - Relu。当然,也有一些论文研究BN到底应该放在哪,目前看也并没有必然,毕竟BN只是起了一个归一化的作用,不同地方对不同网络有好有坏。BN有一个很大的作用就是:宣布了从12年Alexnet开始的Local Response Normalization层的结束,从BN之后基本没有再用LRN层了(这个层计算真的很变扭)。
批标准化卷积(Convolutional)网络
批标准化可以应用于网络的任何激活集合。这里我们专注于仿射变换和元素级非线性组成的变换: 其中W和b是模型学习的参数,g(⋅)是非线性例如sigmoid或ReLU。 这个公式涵盖了全连接层和卷积层。我们在非线性之前通过标准化加入BN变换。 偏置b可以忽略,因为它的效应将会被后面的中心化取消,所以
批标准化可以提高学习率
标量a
原始网路和批标准化网络
加速BN网络(Accelerating BN Networks)
简单的将批标准化添加到网络并不能充分利用我们的方法。为此我们进行了以下修改
# Increase learning rate 提高学习率
# Remove Dropout 删除Dropout
# Reduce the weight regularization 减少权重正则化
# Accelerate the learning rate decay 加速学习率衰减
# Remove Local Response Normalization 删除局部响应归一化
# Shuffle training examples more thoroughly 更彻底的搅乱训练样本
# Reduce the photometric distortions 减少光度失真
单网络分类(Single-Network Classification)
实验(experiments)
Inception: the network described at the beginning of Section 4.2(a new variant of the Inception network), trained with the initial learning rate of 0.0015.
BN-Baseline: Same as Inception with Batch Normalization before each nonlinearity.
BN-x5: Inception with Batch Normalization and the modifications in Sec. 4.2.1. The initial learning rate was increased by a factor of 5, to 0.0075. The same learning rate increase with original Inception caused the model parameters to reach machine infinity.
BN-x30: Like BN-x5, but with the initial learning rate 0.045 (30 times that of Inception).
BN-x5-Sigmoid: Like BN-x5, but with sigmoid nonlinearity instead of ReLU. We also attempted to train the original Inception with sigmoid, but the model remained at the accuracy equivalent to chance.
附录(appendix)
BatchNorm为什么NB呢,关键还是效果好。①不仅仅极大提升了训练速度,收敛过程大大加快;②还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;③另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等。总而言之,经过这么简单的变换,带来的好处多得很,这也是为何现在BN这么快流行起来的原因。
一块很基础的Layer设计——归一化层
Batch Normalization
Layer Normalization
Instance Normalization
Group Normalization
Weight Normalization
Batch Renormalization
Spectral Normalization for GAN
归一化层,目前主要有这几个方法,Batch Normalization(2015年)、Layer Normalization(2016年)、Instance Normalization(2017年)、Group Normalization(2018年)、Switchable Normalization(2018年);将输入的图像shape记为[N, C, H, W],这几个方法主要的区别就是在:batchNorm是在batch上,对NHW做归一化,对小batchsize效果不好;
layerNorm在通道方向上,对CHW归一化,主要对RNN作用明显;
instanceNorm在图像像素上,对HW做归一化,用在风格化迁移;
GroupNorm将channel分组,然后再做归一化;
SwitchableNorm是将BN、LN、IN结合,赋予权重,让网络自己去学习归一化层应该使用什么方法。
根据BN和IN的定义, BN是增加样本间的差异,IN是提高对亮度,色调变化的鲁棒性。
DSBN
可用于无监督中的域适应UDA方法中,其实就是把输入的数据分成源域和目标域分别输入到不同的BN层。
参考资料:论文翻译
https://blog.csdn.net/xbinworld/article/details/78945691