BP神经网络的梳理

一 BP 神经网络简介

（1）BP神经网络在深度学习的地位

BP神经网络被称为“深度学习之旅的开端”，是神经网络的入门算法。
各种高大上的神经网络都是基于BP网络出发的，最基础的原理都是由BP网络而来^[1]，另外由于BP神经网络结构简单，算法经典，是神经网络中应用最广泛的一种。

（2）什么是BP神经网络

BP神经网络（back propagation neural network）全称是反向传播神经网络。
神经网络发展部分背景如下^[2]：

开始发展——在人工神经网络的发展历史上，感知机网络曾对人工神经网络的发展发挥了极大的作用，它的出现曾掀起了人们研究人工神经元网络的热潮。单层感知网络（M-P模型）做为最初的神经网络，具有模型清晰、结构简单、计算量小等优点。
只能解决线性可分——但是，随着研究工作的深入，人们发现它还存在不足，例如无法处理非线性问题，即使计算单元的作用函数不用阀函数而用其他较复杂的非线性函数，仍然只能解决解决线性可分问题．不能实现某些基本功能，从而限制了它的应用。
多层前馈网络——增强网络的分类和识别能力、解决非线性问题的唯一途径是采用多层前馈网络，即在输入层和输出层之间加上隐含层。
BP神经网络登场——20世纪80年代中期，David Runelhart。Geoffrey Hinton和Ronald W-llians、DavidParker等人分别独立发现了误差反向传播算法，简称BP，系统解决了多层神经网络隐含层连接权学习问题，并在数学上给出了完整推导。人们把采用这种算法进行误差校正的多层前馈网络称为BP网。
BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力，解决了简单感知器不能解决的异或和一些其他问题。从结构上讲，BP网络具有输入层、隐藏层和输出层；从本质上讲，BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。

为解决非线性问题，BP神经网络应运而生。

那么什么是BP神经网络？稍微专业点的解释要怎么说呢？

BP神经网络是一个非常经典的网络结构。整个网络结构包含了：一层输入层，一到多层隐藏层，一层输出层。它既可以处理线性问题，也可以处理非线性问题。学习过程由信号的正向传播和误差的反向传播两个过程组成。我们可以利用误差反向传播算法进行迭代，使误差逐渐减少到我们的接受范围内。

二算法原理

很喜欢最简单的神经网络--Bp神经网络一文对算法原理的解释，语言活泼，案例简单，由浅入深。
文中提到所谓的 AI 技术，本质上是一种数据处理处理技术，它的强大来自于两方面：1.互联网的发展带来的海量数据信息；2.计算机深度学习算法的快速发展。AI 其实并没有什么神秘，只是在算法上更为复杂^[3]。

我们从上面的定义出发来解释BP神经网络的原理。

（1）网络结构

BP神经网络整个网络结构包含了：一层输入层，一到多层隐藏层，一层输出层。
一般说L层神经网络，指的是有L个隐层，输入层和输出层都不计算在内的^[6]。

输入层——神经网络中的第一层。它需要输入信号并将它们传递到下一层。它不对输入信号做任何操作，并且没有关联的权重和偏置值^[4]
隐藏层——除输入层和输出层以外的其他各层叫做隐藏层。隐藏层不直接接受外界的信号,也不直接向外界发送信号。隐藏层在神经网络中的作用：中间的黑盒子，可以认为是不同功能层的一个总称。^[5]
输出层——网络的最后一层，它接收来自最后一个隐藏层的输入，输出模型预测的结果值。

结构图

（2）正向传播

BP神经网络模型训练的学习过程由信号的正向传播和误差的反向传播两个过程组成。

什么是信号的正向传播？顾名思义，就是结构图从左到右的运算过程。

正向传播就是让信息从输入层进入网络，依次经过每一层的计算，得到最终输出层结果的过程。

我们来看看结构图中每个小圆圈是怎么运作的。我们把小圈圈叫做神经元，是组成神经网络的基本单元。

上一层的输出数据作为小圈圈的输入数据，先加权求和加偏置b，然后代入激活函数f(x)计算，结果输出。

先对输入数据加权求和加偏置： $x = w_1x_1+ w_2x_2+ w_3x_3+b$
激活函数有很多选择(relu,sigmod,tanh等），不过都不是很复杂的函数，这里令 $f(x) = \frac{1}{1+e^{-x}}$ ，x代入函数计算结果作为神经元的输出。
是不是很简单，每个小圈圈都在做这样的“加权求和+函数代入计算”的工作。

正向传播就是输入数据经过一层一层的神经元运算、输出的过程，最后一层输出值作为算法预测值y'。

（3）反向传播/back propagation是指什么？

前面正向传播的时候我们提到权重w、偏置b，但我们并不知道权重w、偏置b的值应该是什么。关于最优参数的求解，我们在线性回归、逻辑回归两章中有了详细说明。大致来讲就是：

【步骤一】基于算法预测值和实际值之间的损失函数L(y',y)： $J(w,b)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logy'^{(i)}+(1-y^{(i)})log(1-y'^{(i)})]$
【步骤二】然后基于梯度下降原理跟新参数： $w'_j=w_j- \alpha \frac{d}{dw_j} J(w,b)$ ，这里 $\alpha$ 是梯度下降学习率。
还记得高中的时候我们求曲线的极大值极小值就是对曲线求导，求导值为0的点一定是个极值点。梯度下降就是通过对参数求偏导获得最优参数的方法。

BP神经网络全称 back propagation neural network，back propagation反向传播是什么？
反向传播的建设本质上就是寻找最优的参数组合，和上面的流程差不多，根据算法预测值和实际值之间的损失函数L(y',y)，来反方向地计算每一层的z、a、w、b的偏导数，从而更新参数。
对反向传播而言，输入的内容是预测值和实际值的误差，输出的内容是对参数的更新，方向是从右往左，一层一层的更新每一层的参数。

BP神经网络通过先正向传播，构建参数和输入值的关系，通过预测值和实际值的误差，反向传播修复权重；读入新数据再正向传播预测，再反向传播修正，...，通过多次循环达到最小损失值，此时构造的模型拥有最优的参数组合。

（4）案例详解

以一个简单的BP神经网络为例，由3个输入层，2层隐藏层，每层2个神经元，1个输出层组成。

首先做正向传播操作。

【输入层】传入 $x_1,x_2,x_3$
【第一层隐藏层】
对于 $H11$ 神经元而言，传入 $x_1,x_2,x_3$ ，加权求和加偏置激活函数处理后，输出 $h_{11} = f(u_{11}x_1+u_{21}x_2+u_{31}x_3+b_{11})$ ；
对于 $H12$ 神经元而言，传入 $x_1,x_2,x_3$ ，加权求和加偏置函数处理后，输出 $h_{12} = f(u_{12}x_1+u_{22}x_2+u_{32}x_3+b_{12})$ ；
输出： $[h_{11},h_{12}]$
$f([x_1,x_2,x_3] \left[ \begin{matrix} u_{11} & u_{12}\\ u_{21} & u_{22}\\ u_{31} & u_{32}\\ \end{matrix} \right]+\left[ \begin{matrix} b_{11} & b_{12} \end{matrix} \right])=[h_{11},h_{12}]$

【第二层隐藏层】
对于 $H21$ 神经元而言，传入 $h_{11},h_{12}$ ，加权求和加偏置激活函数处理后，输出 $h_{21} = f(w_{11}h_{11}+w_{21}h_{12}+b_{21})$ ；
对于 $H21$ 神经元而言，传入 $h_{11},h_{12}$ ，加权求和加偏置激活函数处理后，输出 $h_{22} = f(w_{12}h_{11}+w_{22}h_{12}+b_{22})$ ；
输出： $[h_{21},h_{22}]$
$f([h_{11},h_{12}] \left[ \begin{matrix} w_{11} & w_{12}\\ w_{21} & w_{22}\\ \end{matrix} \right]+\left[ \begin{matrix} b_{21} && b_{22} \end{matrix} \right])=[h_{21},h_{22}]$
【输出层】
对于输出层神经元而言，输入 $[h_{21},h_{22}]$ ，加权求和加偏置激活函数处理后，输出 $h_{22} = f(v_1h_{21}+v_2h_{22}+b)$ ，输出的是一个值 $y'$
$f([h_{21},h_{22}] \left[ \begin{matrix} v_{11}\\ v_{21}\\ \end{matrix} \right]+[b])=[y']$

第一次运行正向传播这个流程时随用随机参数就好，通过反向传播不断优化。因此需要在一开始对 $u_{11},u_{21},u_{31},b_{11},w_{12},w_{22},b_{22},v_1,v_2,b$ 设置一个随机的初始值。

然后反向传播修正参数

首先计算正向传播输出值 $y'$ 与实际值的损失 $J$ ，是一个数值。所谓反向是从右到左一步步来的，先回到 $H21,H22$ ，修正参数 $v_1,v_2,b$ 。
$v_1'=v_1- \alpha \frac{d}{dv_1} J(u_{11},u_{21},u_{31},b_{11},w_{12},w_{22},b_{22},v_1,v_2,b)$
$v_2'=v_2- \alpha \frac{d}{dv_2} J(u_{11},u_{21},u_{31},b_{11},w_{12},w_{22},b_{22},v_1,v_2,b)$
$b'=b- \alpha \frac{d}{db} J(u_{11},u_{21},u_{31},b_{11},w_{12},w_{22},b_{22},v_1,v_2,b)$
以此类推，通过对损失函数求偏导跟新参数 $w_{12},w_{22},b_{22}$ ，再跟新参数 $u_{11},u_{21},u_{31},b_{11}$ 。这时又回到了起点，新的数据传入又可以开始正向传播了。

（5）基于keras的代码构建

keras可以快速搭建神经网络，例如以下为输入层包含7129个结点，一层隐藏层，包含128个结点，一个输出层，是二分类模型。

import keras
model = keras.Sequential()
model.add(keras.layers.Dense(7129, input_dim=7129, kernel_initializer='normal', activation='tanh'))
model.add(keras.layers.Dense(128, kernel_initializer='normal', activation='tanh'))
model.add(keras.layers.Dense(2, kernel_initializer='normal', activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
history = model.fit(x_train, y_train, epochs=6, batch_size=200, verbose=1)  # 一个epoch=所有训练样本的一个正向传递和一个反向传递

神经网络反向传播的优化目标为loss，可以观察到loss的值在不断的优化。

可以通过model.get_layer().get_weights()获得每一层训练后的参数结果。通过model.predict()预测新数据。

（6）如何解决非线性问题？

至此，BP神经网络的整个运算流程已经过了一遍。之前提到BP神经网络是为解决非线性问题应运而生的，那么为什么BP神经网络可以解决非线性问题呢？
还记得神经元里有一个激活函数的操作吗？神经网络通过激活函数的使用加入非线性因素。
通过使用非线性的激活函数可以使神经网络随意逼近复杂函数，从而使BP神经网络既可以处理线性问题，也可以处理非线性问题。

为什么激活函数的使用可以加入非线性因素^[7]？

【线性和非线性的理解】
区分线性模型和非线性模型，主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x，那么此模型为线性模型。
例如：
$y = \frac{1}{1+e^{w_0x_0+w_1x_1+...+w_nx_n}}$
任意 $w_i$ 只影响一个 $x_i$ ，所以是线性函数
$y = \frac{1}{1+we^{w_0x_0+w_1x_1+...+w_nx_n}}$
任意 $x_i$ 不仅被 $w_i$ 影响，还受到 $w$ 的影响，所以是非线性函数
【激活函数加入的非线性因素】
以上述案例为例，神经元H11输出为 $h11=\frac{1}{1+e^{-(u_{11}x_1+u_{21}x_2+u_{31}x_3+b11)}}$ （线性）
神经元H12输出为
$h12=\frac{1}{1+e^{-(u_{12}x_1+u_{22}x_2+u_{32}x_3+b12)}}$ （线性）
到第二层神经元H21
$h21=\frac{1}{1+e^{-(w_{11}h_{11}+w_{21}h_{12}+b21)}}$
此时的任意 $x_i$ 不仅被 $u$ 影响，还受到 $w$ 的影响，所以是非线性函数。
激活函数就是这样加入的非线性因素的

三、算法拓展

（1）和逻辑回归的关系

其实逻辑回归算法可以看作只有一个神经元的单层神经网络，只对线性可分的数据进行分类。
输入参数，加权求和，sigmoid作为激活函数计算后输出结果，模型预测值和实际值计算损失Loss,反向传播梯度下降求编导，获得最优参数。

BP神经网络是比 Logistic Regression 复杂得多的模型，它的拟合能力很强，可以处理很多 Logistic Regression处理不了的数据，但是也更容易过拟合。

具体用什么算法还是要看训练数据的情况，没有一种算法是使用所有情况的。

（2）和前馈型网络的关系

前馈型网络
各神经元接收前一层的输入，并输出给下一层，没有反馈。
节点分为两类，即输入节点和计算节点，每一个计算节点可有多个输入，但只有一个输出，通常前馈型网络可分为不同的层，第i层的输入只与第[i-1]层的输出相连，输入与输出节点与外界相连，而其他中间层则称为隐层。

常见的前馈神经网络有BP网络，RBF网络等。

（3）BP神经网络优缺点

BP神经网络的一个主要问题是：结构不好设计。
网络隐含层的层数和单元数的选择尚无理论上的指导，一般是根据经验或者通过反复实验确定。

但是BP神经网络简单、易行、计算量小、并行性强，目前仍是多层前向网络的首选算法。

参考资料

[1] 深度学习开端---BP神经网络：https://blog.csdn.net/Chile_Wang/article/details/100557010
[2] BP神经网络发展历史：https://zhuanlan.zhihu.com/p/47998728
[3] 最简单的神经网络--Bp神经网络：https://blog.csdn.net/weixin_40432828/article/details/82192709
[4] 神经网络的基本概念：https://blog.csdn.net/jinyuan7708/article/details/82466653
[5] 神经网络中的 “隐藏层” 理解：https://blog.csdn.net/nanhuaibeian/article/details/100183000
[6] AI学习笔记：神经元与神经网络：https://www.jianshu.com/p/65eb2fce0e9e
[7] 线性模型和非线性模型的区别：https://www.cnblogs.com/toone/p/8574294.html
[8] BP神经网络是否优于logistic回归：https://www.zhihu.com/question/27823925/answer/38460833

最后编辑于：2020.03.10 14:38:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345