第二周学习小结

一、第三周-浅层神经网络

1.神经网络的表示

    一个简单的神经网络是由输入层隐藏层和输出层组成的,隐藏层是除输入层和输出层以外的其他各层。隐藏层不直接接受外界的信号,也不直接向外界发送信号。在训练集中能看到输入层的输入和输出层的输出,但是看不到隐藏层中的数据,这就是所谓的“隐藏层”。

    在神经网络中的一些符号标记用【】来表示数据为神经网络中的第几层,其中输入层为【0】,对应的各层中的神经元的激活值如第一层中的第一个神经元的激活值可以表示为a_{1}^{[1]},假设第一层有n_1个神经元,则a^{[1]}为一个n_1维的列向量。对应的参数可以表示为w^{[1]},b^{[1]},向量化表示为A^{[1]}W^{[1]},b^{[1]}Z^{[1]}

浅层神经网络示意图:


浅层神经网络

其中的

w^{[1]}.shape=(4,3),4是隐层神经元的个数,3是输入层神经元的个数;

b^{[1]}.shape=(4,1),和隐藏层的神经元个数相同;

w^{[2]}.shape=(1,4),1是输出层神经元的个数,4是隐层神经元的个数;

b^{[2]}.shape=(1,1),和输出层的神经元个数相同;

在神经网络中,我们以相邻两层为观测对象,前面一层作为输入,后面一层作为输出,两层之间的w参数矩阵大小为(n_{i} ,n_{i-1} ),b参数的矩阵大小为(n_{i} 1),其中n_{i} 为输出层的神经元数目,n_{i-1} 为输入层的神经元的个数。

2.计算前向传播中神经网络的输出

除输入层之外每层的计算输出可由下图总结出:

每个神经元都需要对输入做z和a的计算

3.向量化实现

假定在m个训练样本的神经网络中,计算神经网络的输出,用向量化的方法去实现可以避免在程序中使用for循环,提高计算的速度。此处的向量化和前面一周的相似。


Z即使将不同的训练样本的对应的z^{(i)} 堆叠成一个矩阵,计算同上一周的计算

4.激活函数的选择

常用的四种激活函数:

1.sigmoid:a=\frac{1}{1+e^{-z}}

2.tanh:a=\frac{e^z-e^{-z}}{e^z+e^{-z}}

3.ReLU(修正线性单元):a=max(0,z)

4.Leaky ReLU:a=max(0.01z,z)


sigmoid和tanh


ReLU和Leaky ReLU

sigmoid函数和tanh函数比较:

隐藏层:tanh函数的表现要好于sigmoid函数,因为tanh取值范围为[−1,+1][−1,+1],输出分布在0值的附近,均值为0,从隐藏层到输出层数据起到了归一化(均值为0)的效果。

输出层:对于二分类任务的输出取值为{0,1}{0,1},故一般会选择sigmoid函数。

然而sigmoid和tanh函数在当|z|很大的时候,梯度会很小,在依据梯度的算法中,更新在后期会变得很慢。在实际应用中,要使|z|尽可能的落在0值附近。

ReLU弥补了前两者的缺陷,当z>0时,梯度始终为1,从而提高神经网络基于梯度算法的运算速度。然而当z<0时,梯度一直为0,但是实际的运用中,该缺陷的影响不是很大。

Leaky ReLU保证在z<0的时候,梯度仍然不为0。

在选择激活函数的时候,如果在不知道该选什么的时候就选择ReLU,当然也没有固定答案,要依据实际问题在交叉验证集合中进行验证分析。

5.神经网络的梯度下降算法

以1中的浅层神经网络为例

下面为该例子的神经网络反向梯度下降公式(左)和其代码向量化(右)


6. 随机初始化

如果在初始时,两个隐藏神经元的参数设置为相同的大小,那么两个隐藏神经元对输出单元的影响也是相同的,通过反向梯度下降去进行计算的时候,会得到同样的梯度大小,所以在经过多次迭代后,两个隐藏层单位仍然是对称的。无论设置多少个隐藏单元,其最终的影响都是相同的,那么多个隐藏神经元就没有了意义。

在初始化的时候,W参数要进行随机初始化,b则不存在对称性的问题它可以设置为0。

w = np.random.rand( (2,2) ) * 0.01;

b = np.zero( (2,1) );

将W的值乘以0.01是为了尽可能使得权重W初始化为较小的值,这是因为如果使用sigmoid函数或者tanh函数作为激活函数时,W比较小,则Z=WX+bZ=WX+b所得的值也比较小,处在0的附近,0点区域的附近梯度较大,能够大大提高算法的更新速度。而如果W设置的太大的话,得到的梯度较小,训练过程因此会变得很慢。

ReLU和Leaky ReLU作为激活函数时,不存在这种问题,因为在大于0的时候,梯度均为1。

二、第四周-深层神经网络

所谓深层神经网络即隐藏层的层数比较多的神经网络

1.为什么使用深层神经网络

在人脸识别中,神经网络的第一层从原始图片中提取人脸的轮廓和边缘,每个神经元学习到不同边缘的信息;网络的第二层将第一层学得的边缘信息组合起来,形成人脸的一些局部的特征,例如眼睛、嘴巴等;后面的几层逐步将上一层的特征组合起来,形成人脸的模样。随着神经网络层数的增加,特征也从原来的边缘逐步扩展为人脸的整体,由整体到局部,由简单到复杂。层数越多,那么模型学习的效果也就越精确。

对于语音识别,第一层神经网络可以学习到语言发音的一些音调,后面更深层次的网络可以检测到基本的音素,再到单词信息,逐渐加深可以学到短语、句子。

所以说深层的神经网络可以更好地由简到繁的按照问题的层次解决问题,更加适合人类的思维方式,具有比较清晰的逻辑框架。

2.神经网络中矩阵的维度

在一个层数很多的神经网络中矩阵的维度通常是一个比较容易出错的点。通过前面的总结和推导,可以发现:

dW^{[l]}=W^{[l]}:(n^{[l]},n^{[l-1]})

A^{[l]}=Z^{[l]}=db^{[l]}=b^{[l]}:(n^{[l]},1)


3.前向传播和反向传播

符号解释:L表示DNN的总层数,n^{[l]} 表示第l层包含神经元的个数,a^{[l]} 表示第l层激活函数的激活值,W^{[l]} 表示第l层的权重。(输入x记作a^{[0]} ,输出\hat{y} 记作a^{[l]} ,cache是缓冲区,通常用作参数传递)


两次传播的流程

(1)前向传播

Input:a^{[l-1]}

Output:a^{[l]} ,cache(z^{[l]} )

基本公式:

z^{[l]}=W^{[l]}*a^{[l-1]}+b^{[l]}

a^{[l]}=g^{[l]}(z^{[l]})

向量化公式:

Z^{[l]}=W^{[l]}*A^{[l-1]}+b^{[l]}

A^{[l]}=g^{[l]}(Z^{[l]})

(2)反向传播

Input:da^{[l]}

Output:da^{[l-1]},dW^{[l]},db^{[l]}

基本公式:

dz^{[l]}=da^{[l]}*g^{[l]/}(z^{[l]})  (g/为g的导数,g'公式里打不出来qaq)

dW^{[l]}=dz^{[l]}*a^{[l-1]}

db^{[l]}=dz^{[l]}

da^{[l-1]}=W^{[l]T}*dz^{[l]}

向量化公式:

dZ^{[l]}=dA^{[l]}*g^{[l]/}(Z^{[l]})

dW^{[l]}=\frac{1}{m}* dZ^{[l]}*A^{[l-1]}

db^{[l]}=\frac{1}{m} *np.sum(dZ^{[l]},axis=1,keepdims=True)

dA^{[l-1]}=W^{[l]T}*dZ^{[l]}

4.参数和超参数

参数:

参数即是我们在过程中想要模型学习到的信息,W^{[l]},b^{[l]}

超参数:

超参数即为控制参数的输出值的一些网络信息,也就是超参数的改变会导致最终得到的参数W^{[l]},b^{[l]}的改变。

之前学过的超参包括:

学习速率:α

迭代次数:N

隐藏层的层数:L

每一层的神经元个数:n[1],n[2],⋯

激活函数g(z)的选择

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容