CS231n课程笔记四 反向传播

导言

动机:为了高效的设计和调试神经网络,理解反向传播的机理是很重要的。
问题描述:有了函数f(x)我们对于计算f在x点的梯度很感兴趣。
在神经网络中,f相应于损失函数和输入x将组成训练集和神经网络权重,比如损失将是SVM损失函数而输入既是训练数据也是权重,既是我们可以很快的使用后向传播计算出梯度,实际上我们通常也仅仅计算每一个参数的梯度,所以我们可以使用它来实现一个参数的更新,然而正如我们在课程中后面会看到的x仍然是有用的,比如为了可视化神经网络在做什么。

计算

首先看最简单的例子:


捕获.PNG

反向传播是一个精美的本地进程。电路图中的每个门都会获得一些输入,可以立即计算两件事情:1.其输出值和2.其输入的本地梯度相对于其输出值。注意,门可以完全独立完成,而不知道它们嵌入的全电路的任何细节。但是,一旦正向通过结束,在反向传播期间,门将最终了解其输出值的梯度在整个电路的最终输出。连锁规则说,门应该采用该梯度,并将其乘以其通常为其所有输入计算的每个梯度。
所以,后向传播其实是门之间的互相交流,通过梯度信号来交流,是增加还是减少,增加减少多大程度,来是的最后的输出结果更高。

模块度

上面介绍的门是相对来说任意的,任何可微的函数都可以作为一个门,并且可以把多个门集合到一个里面或者分解一个函数到多个门中。

image.png

可以用下图来表示:

image.png

分阶段反向传播。如上面的代码所示,在实践中,将前进路径分解为容易反向推进的阶段总是有帮助的。例如,我们创建了一个中间变量点,它保存了w和x之间的点积的输出。在反向通过期间,我们然后依次计算(反向顺序)保存这些变量的梯度的相应变量(例如,ddot,最后dw,dx)。

本节的要点是,反向传播如何执行的细节以及我们认为是门的前向功能的哪些部分是方便的问题。它有助于了解表达式的哪些部分具有容易的本地渐变,使得它们可以用最少的代码和努力链接在一起。

案例 分阶段计算

下面看以下的案例:

image.png
x = 3 # example values
y = -4

# forward pass
sigy = 1.0 / (1 + math.exp(-y)) # sigmoid in numerator   #(1)
num = x + sigy # numerator                               #(2)
sigx = 1.0 / (1 + math.exp(-x)) # sigmoid in denominator #(3)
xpy = x + y                                              #(4)
xpysqr = xpy**2                                          #(5)
den = sigx + xpysqr # denominator                        #(6)
invden = 1.0 / den                                       #(7)
f = num * invden # done!                                 #(8)

有几点需要注意:首先应该将计算过的变量放入缓存,为了后巷传递变量应该把一些变量存储,在实际中你想要结构化这些变量,所以他们在后向传播中能够可用。另外,前向的表达式中用到x和y多次,所以当我们使用后向传播的时候应该慎重使用+=而不是=,以在这些变量上积累梯度,而不是直接替换掉,这个符合多变量链式规则。

后向传播流的模式

在这幅图中,add gate 会将梯度平等的传递给输入节点,无论前向的节点传递了什么值。
而max gate 规定了梯度传递的路线,他只会传递给特定的一个路线。
multiply gate 会交换传入的梯度。

image.png

向量梯度

当两个向量相乘的时候,如何找到梯度是比较难的。

# forward pass
W = np.random.randn(5, 10)
X = np.random.randn(10, 3)
D = W.dot(X)

# now suppose we had the gradient on D from above in the circuit
dD = np.random.randn(*D.shape) # same shape as D
dW = dD.dot(X.T) #.T gives the transpose of the matrix
dX = W.T.dot(dD)

使用维度分析!请注意,您不需要记住dW和dX的表达式,因为它们容易根据维度重新导出。例如,我们知道权重dW上的梯度在计算之后必须与W的大小相同,并且必须依赖于X和dD的矩阵乘法(如同时X,W都是单个数字的情况)而不是矩阵)。总是有一种实现这一点的方法,以便维度得到解决。例如,X大小为[10×3],dD大小为[5×3],所以如果我们想要dW和W具有[5×10]的形状,那么实现这一点的唯一方法是使用dD.dot XT),如上所示。

使用小的,明确的例子。有些人可能会发现很难得出一些向量化表达式的渐变更新。我们的建议是明确地写出一个最小的矢量化示例,导出纸上的渐变,然后将模式推广到其有效的向量化形式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,980评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,422评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,130评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,553评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,408评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,326评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,720评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,373评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,678评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,722评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,486评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,335评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,738评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,283评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,692评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,893评论 2 335

推荐阅读更多精彩内容