深层神经网络


深度学习 有两个非常重要的特性:多层和非线性

非线性:

线性模型的输出结果为输入的加权和。
线性模型的最大特点是任意线性模型的组合仍然还是线性模型。所以,只通过线性变化,任意层的全连接神经网络和单层神经网络的表达能力没有什么区别,而且他们都是线性模型。
对于非线性可分问题,线性模型效果不好。

可以使用激活函数实现去线性化,通过将每个神经元的输出通过一个非线性函数可是实现去线性化,同时还可以加入偏置项。
常用的非线性激活函数:ReLU函数、sigmoid函数和tanh函数。在Tensorflow中可使用:tf.nn.relutf.sigmoidtf.tanh表示。

多层:

多层神经网络可以解决异或运算。
深层神经网络有组合特征提取的功能,对于不易提取特征的向量有很大的帮助。


损失函数

神经网络模型的效果及优化的目标是通过损失函数(loss function)定义的。

  1. 对于二分类问题可以通过设置阈值来进行分类。
  2. 对于多分类问题,通常的方法是设置n个输出节点,其中n为类别的个数,对于每一个样例,神经网络得到一个n维数组作为输出结果。

如何判断一个输出向量和期望的向量之间有多近呢?

  1. 在分类问题中,通常使用交叉熵(corss entropy)评判,交叉熵刻画了两个概率分布之间的距离,交叉熵越小,两个概率分布越接近。但是神经网络的输出却不一定是一个概率分布,Tensorflow中通常使用Softmax回归作为一个额外的处理层将神经网络的输出变成一个概率分布(将参数去掉了)。
    Tensorflow将交叉熵和softmax进行了统一封装,tf.nn.softmax_cross_entropy_with_logits(y, y_),y代表原始神经网络的输出,y_给出了标准答案。在只有一个正确答案的分类问题中,Tensorflow提供了tf.nn.spare_softmax_cross_entropy_with_logits()进一步加速计算过程。
  2. 对于回归问题,神经网络一般只有一个输出节点(预测值),常用的损失函数是均方误差(MSE,mean squared error)
    Tensorflow中可通过tf.reduce_mean(tf.square(y_ - y)实现。
 Tensorflow还可以优化任意的自定义的损失函数。

神经网络优化方法

梯度下降算法主要用于优化单个参数的取值,而反向传播算法给出了一个高效的方式在所有的参数上使用梯度下降算法。

在实际应用中,梯度下降算法是最常用的神经网络的优化方法,梯度下降算法会迭代更新参数theta,不断沿着梯度的反方向让参数朝着总损失更小的方向更新。

  1. 梯度下降算法并不能保证被优化的函数达到全局最优解,只有损失函数为凸函数时,梯度下降算法才能保证达到全局最优。
  2. 梯度下降算法计算时间太长,因为在每一轮迭代中要计算全部训练数据上的损失函数。

为了加速训练过程,可以使用随机梯度下降算法(stochastic gradient descent),在每一轮的迭代中,SGD随机优化某一条训练数据上的损失函数,但使用SGD优化的神将网络甚至可能无法达到局部最优。

为了综合以上二者的优缺点,是以应用中一般采用二者的折中算法——每次计算一小部分训练数据的损失函数。


神经网络的进一步优化

学习率的设置:

在训练过程中,需要设置学习率(learning rate)控制参数更新的速度。使模型在训练的前期快速接近较优解,又可以保证模型训练后期不会出现太大的波动,从而更快接近局部最优。

  1. 如果更新幅度过大,可能导致参数在极优值的两侧来回移动或者发散。
  2. 当学习率过小时,虽然能收敛,但是大大降低了优化速度。

Tensorflow使用一种灵活的学习率设置方法——指数衰减法。
tf.train.exponential_decay()实现了指数衰减学习率。

global_step = tf.Variable(0)    
learning_rate = tf.train.exponential_decay(
                0.1, global_step, 100, 0.96, staircase=True)
learning_step = tf.train.GradientDescentOptimizer(learning_rate).
                minimize(my_loss, global_step=global_step)

设定初始学习速率为0.1,指定了staircase=True,所以每 训练100轮后学习率乘以0.96。在minimize()中传入了global_step将自动更新global_step参数,从而使得学习率也得到了相应更新。

过拟合问题:

避免过拟合,常用的方法是正则化(regularization),其思想是在损失函数中加入刻画模型复杂程度的指标。
一般来说,模型的复杂度只由权重w决定,常用的刻画模型复杂度的函数R(w)有两种:

  1. L1正则化,L1正则化可以让参数变得更稀疏(更多w=0),这样可以达到类似特征选取的功能。同时L1的计算公式不可导。
  2. L2正则化,L2不会让参数变得更稀疏,因为当参数很小时,比如w=0.001,这个参数的平方基本就可以忽略了,于是不会进步将其调整为0。L2正则化公式可导,所有优化更加简洁。

Tensorflow中可以优化带正则化的损失函数:

 w = tf.Variable(rf.randon_mormal([2,1])
 loss = rf.reduce_mean(tf.square(y_ - y) +     
        tf.contrib.layers.l2_regularization(lambda)(w)

loss的第二部分就是正则化,防止模型过度拟合训练数据中的随机噪声。lambda表示正则化项的权重,w为需要计算正则化的损失参数。也可以使用L1正则化,tf.contrib.layers.l2_regularization(lambda)(w)

滑动平滑模型:

使用滑动平均模型在一定程度上可以提高模型在测试数据上的表现。
Tensorflow使用tf.train.ExponentialMovingAverage()来实现滑动平均模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容

  • 使用验证集判断模型效果 为了评测神经网络模型在不同参数下的效果,一般会从训练集中抽取一部分作为验证数据。除了使用验...
    Manfestain阅读 648评论 0 0
  • 大多数人都渴望成功并且追求卓越,然而,并不是所有的人都会成功,都能成为卓越人士。我们在羡慕别人的成功之时,想当然的...
    阿润的清源塘阅读 9,260评论 0 9
  • 戳此视频:快乐时光 有人问我:狗狗和其他动物有什么区别?如果你看到流浪鸡你会不会想收养?别人杀猪你怎么还会吃猪肉呢...
    暗影里的叮当阅读 198评论 2 0
  • 话说一个技术和一个销售,两人开车去山里玩,所有的东西都吃完了,两个人都饥肠辘辘的,看看周围都没有什么可以吃的。于是...
    于仁颇黎阅读 336评论 0 0