1、什么是批正则化(BatchNormal)
对输入的批数据进行归一化,映射到均值为 0 ,方差为 1 的正态分布。同时因为将输入数据都映射到了原点周围,会导致激活函数表达能力变差,所以又引入了缩放和平移,计算公式如下:
2、为什么要引入批正则化
因为每一批的数据的数据分布会有差别,为了能够使每一批的数据分布相同,所以才要进行批归一化
3、批正则化的优点
能够使得每批的数据分布一致,同时能够避免梯度消失。例如对于 sigmoid 来说,sigmoid 的梯度分布图为一个倒 U 型,且在 x 取值为 0 时的梯度最大,而批正则化操作恰好可以让 x 的值大部分都分布在 0 附近
4、批正则化的缺点
① 当批的大小较小时,计算得到的均值和方差不准确,使归一化的效果变差,导致模型的性能下降
② 当批的大小较大时,内存可能不足
5、批正则化的具体计算过程
BN:批量归一化,往batch方向做归一化,归一化维度是[N,H,W]
LN:层次归一化,往channel方向做归一化,归一化维度为[C,H,W]
IN:实例归一化,只在一个channel内做归一化,归一化维度为[H,W]
GN:介于LN和IN之间,在channel方向分group来做归一化,归一化的维度为[C//G , H, W]
6、pytorch 的 BatchNorm2d 作用和参数详解
官网链接:https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html
接口:torch.nn.BatchNorm2d(num_features, eps=1e05, momentum=0.1, affine=True,
track_running_stats=True)
1.num_features:一般输入参数为batch_size*num_features*height*width,即为其中特征的数量
2.eps:分母中添加的一个值,目的是为了计算的稳定性,默认为:1e-5
3.momentum:一个用于运行过程中均值和方差的一个估计参数(我的理解是一个稳定系数,类似于SGD中的momentum的系数)
4.affine:当设为true时,会给定可以学习的系数矩阵gamma和beta
5.track_running_stats:由于在测试阶段,存在输入单样本或少量样本的情况,为了避免使用批正则化操作而导致归一化的效果差的问题,此时如果 track_running_stats=True,则不会进行批正则化,而是使用指定的均值和方差来进行计算,如果 track_running_stats=False,则仍会使用批正则化
例子:
import torch
input_tensor = torch.randn([2, 4, 5, 3])
batch_norm = torch.nn.BatchNorm2d(num_features=4)
result = batch_norm(input_tensor)
print(result.shape)
print(result)
部分结果:
torch.Size([2, 4, 5, 3])
tensor([[[[ 0.2061, -0.2501, 0.0601],
[-0.5218, -1.0619, -1.4185],
[ 0.1908, 1.2295, -0.7729],
[-0.6448, -1.3476, 1.2012],
[ 0.5188, 1.2980, -1.4802]],
[[ 1.0705, -1.8748, 0.3279],
[-0.2957, 2.0822, -0.8830],
[ 0.3909, 1.2703, -1.8282],
[ 1.4113, -0.6184, 0.7101],
[-1.1876, -1.4167, 0.0765]],
[[ 1.0806, 1.4385, -1.7109],
[ 1.0923, -0.7254, -1.5689],
[-0.0218, -0.4633, -0.0800],
[-1.2303, -0.4087, 1.2155],
[ 0.5398, 0.3635, -1.3078]],