神经网络与深度学习的阅读笔记

原文链接(中文版)
第一章和三四章的笔记，从最简单的神经元模型感知机讲起，感知机的激活函数是阶跃函数，不能很好地反应代价函数下降的变化量，由此引入sigmoid激活函数，介绍了BP网络的梯度下降法，使代价函数始终朝自变量负梯度方向下降，采用随机梯度下降提升学习效率，最后从代价函数、正则化、权值初始化、超参数选择等方面入手优化学习模型，加快学习速度。

随机梯度下降

每次迭代都进行随机梯度下降，（随机选择训练输入的少量样本，并只计算这些样本的∇Cx的平均值来估算梯度 nablaC。）每一次迭代随机分配minibatch，对每一个batch进行参数更新，参数更新是依据batch中所有样本的梯度的平均值。
累计BP则是求得所有样本的变化量的均值C=1n∑xCx

神经网络的超参数
训练迭代数，mini-batch的大小，学习率eta，隐藏神经元个数

交叉熵代价函数

利用二次代价函数(均值方差)作为代价函数可能会因为初始参数选取不恰当的原因导致学习速度下降，因为在梯度下降算法中涉及到sigmoid函数的导数，当接近1时变化缓慢，解决方案是交叉熵代价函数

交叉熵代价函数

交叉熵由于非负和接近目标值时交叉熵接近0的特性，可作为代价函数，同时也避免了学习速度下降的问题

因为交叉熵在对变量求梯度时，约去了sigmoid函数项，所以避免了学习速率下降的问题，如下

交叉熵求权重导

交叉熵求阈值导

一般当输出神经元使用sigmoid激活函数时，交叉熵都是更好的选择

softmax层

softmax函数也可以用于解决学习缓慢的问题，用softmax函数代替sigmoid函数作为激活函数，softmax层的输出都是一些相加为1的正数的集合，可被看作是概率分布

softmax函数

用log-likelihood函数作为代价函数

log-likelihood

当softmax的输出接近于1时，log-likelihood的输出接近于0，可用作概率分布的代价函数。softmax 加上 log-likelihood 的组合更加适用于那些需要将输出激活值解释为概率的场景。

过拟合

在训练集由于迭代的增加代价函数会不断降低，学习能力越来越强，但但反映在测试集上可能会出现准确率或代价函数在一段时间内提升后震荡或衰减的现象。原因是在学习过程中由于参数众多，可能导致模型学习到训练数据本身的性质。方法之一是早停，当学习到验证集的准确度出现饱和时，停止训练。或是增加训练样本。
另一种缓解过拟合的方法是规范化，或称权值下降、L2正则化

L2正则化

规范化的效果是让网络倾向于学习小一点的权重，规范化可以当做一种寻找小的权重和最小化原始的代价函数之间的折中。这两部分之前相对的重要性就由lambda的值来控制了：lambda越小，就偏向于最小化原始代价函数，反之，倾向于小的权重。在引入正则化后，参数的下降会多减去关于lambda的一项

正则化的权重下降

无规范化的网络在随机初始化参数后可能最终会得到极小值，规范化网络能有效规避这一问题。规范化网络使权重更小，小的权重在某种程度上说表示更低的复杂度。更小的权重意味着网络的行为不会因为我们随便改变了一个输入而改变太大。这会让规范化网络学习局部噪声的影响更加困难。将它看做是一种让单个的证据不会影响网络输出太多的方式。相对的，规范化网络学习去对整个训练集中经常出现的证据进行反应。对比看，大权重的网络可能会因为输入的微小改变而产生比较大的行为改变。所以一个无规范化的网络可以使用大的权重来学习包含训练数据中的噪声的大量信息的复杂模型。简言之，规范化网络受限于根据训练数据中常见的模式来构造相对简单的模型，而能够抵抗训练数据中的噪声的特性影响。我们的想法就是这可以让我们的网络对看到的现象进行真实的学习，并能够根据已经学到的知识更好地进行泛化。

简单概括上述表达，正则化会将学习过程中那些离群点看作噪声从而减少参数数量，简化学习模型，避免过拟合。

规范化的其他技术

L1正则化
dropout
人工扩展训练数据

权重初始化

当采用标准正态分布(均值0方差1)进行权值初始化时，对于隐层神经元的输入有可能饱和(通过重构代价函数可以解决输出神经元在错误值上饱和导致学习下降的问题，但不能解决隐层的饱和)。可以使用均值0方差1/srqt(n)的正态分布初始权重，这样会向下挤压高斯分布，不容易饱和。这样的初始化不仅仅能够带来训练速度的加快，有时候在最终性能上也有很大的提升。

self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]]
self.weights = [np.random.randn(y, x)/np.sqrt(x)
                        for x, y in zip(self.sizes[:-1], self.sizes[1:])]

如何选择神经网络的超参数

学习率

通常采用可变的学习率更加有效。在学习的前期，权重可能非常糟糕。所以最好是使用一个较大的学习率让权重变化得更快。越往后，我们可以降低学习率，这样可以作出更加精良的调整。一种自然的观点是使用提前终止的想法。就是保持学习率为一个常量知道验证准确度开始变差。然后按照某个量下降学习率。

规范化参数

我建议，开始时不包含规范化lambda=0，确定eta的值。使用确定出来的eta，我们可以使用验证数据来选择好的lambda。从尝试lambda=1.0开始，然后根据验证集上的性能按照因子10增加或减少其值。一旦我已经找到一个好的量级，你可以改进lambda的值。这里搞定后，你就可以返回再重新优化eta。

minibatch大小

最后编辑于：2017.12.07 13:35:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

神经网络与深度学习的阅读笔记

随机梯度下降

交叉熵代价函数

softmax层

过拟合

规范化的其他技术

权重初始化

如何选择神经网络的超参数

推荐阅读更多精彩内容