BP网络(Back Propagation),是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。
BP (Back Propagation)神经网络,即误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
简单的来说,
BP的传播对象就是“误差”,传播目的就是得到所有层的估计误差。
它的学习规则是:使用梯度下降法,通过反向传播(就是一层一层往前传)不断调整网络的权值和阈值,最后使全局误差系数最小。
它的学习本质就是:对各连接权值的动态调整。
一、正向传播和反向传播
这里介绍三层神经网络的推导(一个输入层、一个隐层和一个输出层)上图描绘了神经元 j 被它左边的一层神经元产生的一组函数信号所馈给。m是作用于神经元 j 的所有输入不包括偏置的个数。突触权值 w_j0(n) 等于神经元 j 的偏置 b_j。
1、正向传播
正向传播就是让信息从输入层进入网络,依次经过每一层的计算,得到最终输出层结果的过程。
在神经元 j 的激活函数输入处产生的诱导局部域v_j(n)(即神经元j 的输入)是:
ϕ_j 是激活函数,则出现在神经元j输出处的函数信号(即神经元j的输出)y_j(n)是:
2、反向传播
反向传播的信息是误差,也就是 输出层(output )的结果 与 输入信息 x 对应的真实结果 之间的差距。
举一个通俗的例子,猜数字:
随机设定一个数值 X,让你来猜,我会告诉你猜的数字是高了还是低了。你每次猜的数字相当于一次信息正向传播给我的结果,而我给你的提示就是反向传播的信息,往复多次,你就可以猜到这个随机设定的数值 X 。 这就是典型的反向传播,即根据输出的结果来反向的调整模型,只是在实际应用中的Bp网络更为复杂和数学,但是思想很类似。
据图一,y_j(n)与d_j(n)分别是神经元j的实际输出和期望输出。
图二:它表示输出层神经元k连接到隐层神经元j的信号流图在这里下标j表示隐层神经元,下标k表示输出层神经元。
由神经元 i 连接到神经元 j 的突触权值的修正值Δw_ji(n)按照delta法则定义如下:
(具体推导过程省略)
二、标准BP神经网络设计原则
(1)激活函数:单极性S型函数和双曲正切S型函数(2)学习率:0<η<1
(3)停止准则:网络的均方误差足够小或者训练足够的次数等
(4)初始权值:以均值等于0的均匀分布随机挑选突触权值
(5)隐层结构:理论证明一个隐层就能映射所有连续函数 (隐藏层层数、隐藏层神经元数量如何确定?);
BP神经网络的隐藏层节点数对BP神经网络预测精度有较大的影响:节点数太少,网络不能很好地学习,需要增加训练次数,训练精度也受影响;节点数太多,训练时间增加,网络容易过拟合。最佳隐藏层节点数选择可以参考如下公式:
式中,n为输入层节点数;l为隐藏层节点数;m为输出层节点数;a为0~10之间的常数。在实际问题中,隐藏层节点数的选择首先是参考公式来确定大致的范围,然后用试凑法确定最佳的节点数。对于某些问题来说,隐藏层节点数对输出结果影响较小。
三、标准BP算法训练过程及流程图
1、训练过程
(1)初始化网络的突触权值和阈值矩阵;
(2)训练样本的呈现;
(3)前向传播计算;
(4)误差反向传播计算并更新权值;
(5)迭代,用新的样本进行步骤3和4,直至满足停止准则。
有很多的方法可以判断算法是否已经收敛,常见的有指定迭代的次数,判断相邻的两次误差之间的差别是否小于指定的值等等。
2、流程图
四、标准BP算法分析
由于标准 BP 算法采用的是梯度下降法,BP 算法的 E-w 曲线图如下:
因此标准 BP 算法具有以下缺陷:
1、在误差曲面上有些区域平坦,此时误差对权值的变化不敏感,误差下降缓慢,调整时间长,影响收敛速度。
2、存在多个极小点,采用梯度下降法容易陷入极小点而无法得到全局最优解。
3、学习率η越小,学习速度减慢,而η越大,虽然学习速度加快,却容易使权值的变化量不稳定,出现振荡。
改进方法:
1、增加动量项
2、可变学习速度的反向传播
3、学习速率的自适应调节
4、引入陡度因子——防止饱和
5、共轭梯度法、拟牛顿法等
五、实际应用
bp神经网络解决iris分类问题
代码和数据集:https://gitee.com/rao-wensheng/practise/tree/master/bp