机器学习的应用层面

测试集,训练集和验证集

吴恩达深度学习课程
课程2第一周学习笔记
课程地址:https://mooc.study.163.com/learn/2001281003#/learn/announce

深度学习的应用是一个高度迭代的过程,在这个迭代过程中,创建高质量的数据集(即训练集,测试集和验证集)有助于提高迭代效率。传统的机器学习算法,用到的数据集不是很大,比如有1000条数据,10000条数据,传统的机器学习算法中,将整个数据集按照6:2:2的比例划分为训练集,测试集和验证集,或者按照7:3的比例划分为验证集和测试集。但是在大数据时代,比如百万级别的数据,按照以上划分,显然是不合适的,实际上,百万级别的数据,使用一万条数据进行评估和验证已经足够,验证集和测试集所占的比例会逐渐下降,通常情况下,训练集所占比例约为98%,验证集和测试集所占比例可能会达到1%1%,或者训练集所占比例达到99.5,验证集和测试集所占比例为0.25%0.25

因为要利用验证集和测试集评估不同的模型,所以尽可能使验证集和测试机的数据来自同一分布。为了获取大量的训练数据,可以使训练集和测试集来自不同的分布。遵循这个经验法则,可以使得机器学习的算法的性能更好。

如果要对神经网络做出无偏估计,可以不用测试集。没有测试集,我们要做的就是在训练集上训练,在验证集上评估这些模型。

偏差和方差

构建的模型并不能很好的拟合模型,具有高偏差,我们称这种情况为欠拟合,相反,如果一个模型能够在训练集上很好的拟合数据,而在验证集或者测试集上误差较大,这种情况被称之为高方差,数据过拟合。关于数据集,方差和偏差的关系可以用如下表格表示:

训练集误差 验证集误差 结果分析
1% 11% 高方差,过拟合
15% 16% 高偏差,欠拟合
15% 30% 高方差,高偏差
0.5% 1% 低偏差,低方差

正则化

深度学习过拟合的消除,通常有两种办法,一种是正则化,另一种是准备更多数据。正则化的消除过拟合的原理如下。

以逻辑回归为例,最小化成本函数,wb是逻辑回归的两个参数,w是一个多维度矢量参数,b是一个实数,在正则化的实现过程中,只关心w参数。

正则化损失函数的实现公式如下所示:
minJ(w,b) = \frac{1}{m}\sum_{j=1}^{m} L(\hat{y}^{(i)},y^{(i)}) + \frac{\lambda}{2m}||w||_2^{2} \tag{1}

||w||_2^{2} = \sum_{j=1}^{n_x}w_j^{2} = w^Tw\tag{2}

公式(2)中的正则化实现方式被称之为L2正则化,用到了欧几里德法线,被称为向量参数wL2范数。

L2正则化是最常用的正则化实现方式,与之对应的L1正则化的实现方式如下所示,:
L1: \frac{\lambda}{m}\sum_{j=1}^{n_x}|w| \tag{3}

\lambda是一个正则化参数,通常使用交叉验证集来配置这个参数,一般将这个参数设置为最小值,用来避免过拟合。\lambda参数也是我们需要调整的一个超参数。

在神经网络中,带正则项的损失函数,公式如下所示:
J(w^{[1]},w^{[2]}…w^{[L]},b) = \frac{1}{m}\sum_{i=1}^{L}L(\hat{y^{(i)}}-y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^{L}||w^{[l]}||^2 \tag{4}

||w^{[l]}||_F^2 = \sum_{i=1}^{n^{[L]}}\sum_{j=1}^{n^{[L-1]}}(w_{ij}^{[L]})^2 \tag{5}

在神经网络中,W表示的是一个n^{[L]}×n^{[L-1]}的参数矩阵,该范数被定义为矩阵中所有元素的平方求和,该范数被称之为弗罗贝尼乌斯范数,用下标F标注。

利用反向传播函数计算dW的值并更新权重参数,其损失函数多了一项正则项,则其对参数w的求导,也多了正则项,对正则项求导,其结果为\frac{\lambda}{m}w^{[l]},则参数的更新可以用如下表达式所示:

w^{[l]} :=w^{[l]} - \alpha \frac{\lambda}{m}w^{[l]} - \alpha (backpro)\tag{6}

其中backpro表示反向传播给出的dw值,可以看出,在计算过程中,有:
w^{[l]} = w^{[l]}(1-\frac{\alpha \lambda}{m}) \tag{7}

该公式表示,系数总是小于1,所以表示参数矩阵W的值在不断变小,L_2范数正则化也被称之为权重衰减。

正则化能够消除过拟合的原因

由公式(7)可知,当正则化参数\lambda设置的足够大时,权重参数参数w会接近于0,等价与基本上消除了神经网络中隐藏层的影响,多层神经网络就会变成一个浅层神经网络,整个神经网络的就会呈现出高偏差的状态。即也就是通过调整参数\lambda的值,正好能够消除高方差,也能避免高偏差,网络性能达到最好。

假设,神经网络隐藏层的激活函数是tanh(z)函数(z = w^Tx+b),如该函数图像所示,只要z足够小,激活函数的取值范围接近于线性状态,如果隐藏层的激活函数都是线性的,那么等价于整个网络的隐藏层都是线性的,一个深层的神经网络就可以等价为浅层的网络,可能会造成高偏差,并且导致欠拟合,不能用来用来实现较为复杂的分类。

dropout 正则化

在深度学习中,除了常用到的L_2正则化之外,常常用到另外一种正则化,称之为dropout 正则化(随机失活正则化)。

假设有一个如下图所示的神经网络,存在过拟合,利用dropout正则化消除过拟合的过程可以简单的描述为;

  • 遍历神经网络的每一层节点
  • 随机设置需要消除节点和保留节点的概率值
  • 根据概率消除一些节点,删掉这些节点的数据(包括权重参数等),得到一个更小的神经网络,利用反向传播算法训练这个更为精简的神经网络。

实施dropout正则化的方法有好多种,最常用到的方法是反向随机失活(inverted dropout),以一个3层的神经网络为例,实现反向随机失活的步骤可以如下所示:

  • 定义一个随机向量dd^{[3]}表示一个三层的dropout向量
    用代码表示如下所示:
d3 = np.random.rand(a3.shape[0],a3.shape[1])
  • 判断d_3是否小于keep_probkeep_porb是一个具体数字,表示保留某个隐藏层单元的概率。
  • 从第三层获取激活函数a^{[3]},计算方式如下所示:
a3 = np.multiply(a3,d3)

以上表达式表示将d_3中等于0的元素输出,各个元素等于0的概率为1-keep_prob,即使得d_3中的0与a_3中相对应的元素归零。

  • 最后,继续扩展a^{[3]},即有:
a3 /= keep_prod

注意: 实现以上步骤的原因是:假设第3层的单元数量是50,keep_prob的值为0.8,意味着在这一层删除或者归零的单元数为50×(1-0.8)=10个,对于神经网络第四层有:z^{[4]}= w^{[4]}a^{[3]}+b^{[4]},在dropout的实现过程中,a^{[3]}中有20%的元素被归零了,为了不影响z^{[4]}的期望值,a^{[3]}/0.8将会弥补或者修正被dropout的20%.

dropout正则化的理解

对于dropout正则化作用的理解有:

  • 不依赖于任何一个特征,因为该单元的输入可能会被随时清除,通过这种方式的传播,dropout会产生收缩权重的平方范数的效果,与L2正则化的效果类似。

  • 神经网络中每个单元的工作就是输入并生成一系列有意义的输出,通过dropout,该单元的输入可能会被清除,因为某个单元的输入可能会被随时清除,所以,不愿给每个节点的输入加入太多权重,通过这种的方式的传播,dropout产生手摧权重平方范数的效果,压缩权重,并完成一些预防过拟合的外层正则化。

应用dropout正则化的技巧

如下图所示,该网络第二层和第三层隐藏层的单元数目较多,而后面几层单元数目较小,对于这一情况,通常会选择将单元数较多的隐藏层的keep_prob设置较小,单元数较少的隐藏层设置较大。即也就是根据不同层产生不同过拟合的效果来调整keep_prob的值。

其他正则化方法

除了以上两种正则化方法之外,常用来避免网络过拟合的方法还有以下几种:

数据扩增

可以通过扩充数据来避免过拟合,计算机视觉中,扩充数据花费可能太高,可以将原有图像翻转,或者将原图旋转或者随意放大并裁剪。在字符识别中,可以将已有字符随意扭曲或者旋转来扩充训练数据。


early stopping

另一种避免正则化的方法是early stopping术语称之为提前停止训练神经网络。在训练过程中,刚开始迭代时,训练集误差和验证集误差一直在下降,但是随着迭代过程的不断进行,经过某一点之后,验证·集误差可能会开始上升,通常会选择该点的参数作为神经网络的参数。

early stopping提前停止了训练,也就意味着提前停止了优化了优化损失函数,损失函数可能不会取得最小值。其优点就是只通过一次梯度下降,就可以得到w的较小值,而不用像L2正则化一样,通过多次尝试超参数\lambda的值。

归一化输入

归一化的步骤

神经网络中,能够加速神经网络训练速度的一个有效方法就是归一化输入(标准化),可以分为两个步骤

  • 零均值
    零均值化用数学表达式表示即也就是:
    \mu =\frac{1}{m}\sum_{i}^{m} x^{(i)} \tag{8}
    x等于每个训练数据减去均值\mu,完成这一步之后,以二维数据为例,训练数据的变化如下图所示:
  • 归一化方差
    训练数据的方差的计算公式如下所示:
    \sigma^2 = \frac{1}{m} \sum_{i=1}^{m}(x^{(i)})^2 \tag{9}

有了以上步骤之后,对于归一化的过程可以直接用如下公式表示:
x_{norm} = \frac{x-\mu}{\sigma } \tag{10}

完成以上步骤之后,整个数据均为的分布在以原点为中心的平面上,如下图所示:

使用归一化的原因

利用归一化能够使得代价函数的分布更加均匀,并且能够训练速度更快。特征范围在(-1,1)(0,1000)优化起来更加简单快速。

梯度消失与梯度爆炸

假设训练一个深层的神经网络,这个神经网络包含多个隐藏层,每一个隐藏层的神经的权重参数用w^{[1]},w^{[2]}……w^{[L]}表示,并且每一层的激活函数都是线性激活函数g(z) =g(w^{[l]}x),则输出可以简化为如下表达式:
y = w^{[1]}w^{[2]}……w^{[L-1]}w^{[L]}x \tag{10}

假设设定权重参数w^{[l]}
\left[ \begin{matrix} 1.5& 0 \\ 0 & 1.5 \end{matrix} \right]

根据公式(10)可知,网络输出会是1.5^{[L]},随着神经网络层数的增加,其输出会呈现指数级别的增长,这种情况下,梯度下降的过程会变得非常缓慢。

与之相对应的另一种情况是,假定参数矩阵w^{[l]}是如下矩阵
\left[ \begin{matrix} 0.5& 0 \\ 0 & 0.5 \end{matrix} \right]
这种情况会导致神经网络的输出为\frac{1}{2^L},随着神经网络层数的增加,输出会变得越来越小,会导致,梯度下降的过程中,每一步的梯度的下降非常小,梯度下降会花费非常多的时间。这种情况可以称之为梯度消失。

神经网络的权重初始化

对于多层神经网络,其输入,权重参数和特征之间的关系可以用如下公式表示,n表示神经元输入特征数量:
z= w^{[1]}x_1 + w^{[2]}x_2 + ……w^{[n]}x_n \tag{11}

对于n层神经网络,为了保证输入z的值较小,或者保持不变,随着n的增加,势必要令w_i变小,一般情况下,最合理的设置方法就是使得w_i = \frac{1}{n}

所以,综上,神经网络某一层权重的初始化过程,可以用如下代码实现:

wl^{[l]}= np.random.randn(shape)*np.sqrt(1/n^{[l-1]})

注意:np.random.randn() 表示生成符合高斯分布的随机变量。

参数设置两个技巧:

  • 如果激活函数是tanh(z), 一般而言选择\sqrt{\frac{1}{n^{[l-1]}}}

  • 如果激活函数是relu(z),可以选择\sqrt{\frac{2}{n^{[l-1]}}}

梯度检验

梯度检验能够有效减少神经网络传播过程中的bug,执行梯度检验的过程可以如下步骤所示:

  • 将参数w^{[1]},b^{[1]},w^{[2]},b^{[2]}……w^{[l]},b^{[l]}转换成一个向量\theta,此时对于损失函数会变成:
    J(w^{[1]},b^{[1]},w^{[2]},b^{[2]}……w^{[l]},b^{[l]}) = J(\theta)

  • dw^{[1]},d^{[1]}……dw^{[l]},db^{[l]} 转换成向量d\theta

众所周知,对于函数f(x)而言,x点导数的数学定义就是:
f'(x) = \frac{f(x+\epsilon)-f(x-\epsilon)}{2\epsilon} \tag{12}
\epsilon是一个极小值。

根据导数或者梯度的数学原理,导数或者梯度表示一种数值逼近,如公式(12)所示,表示双边误差,比单边误差具有更高的精确度。

  • 利用循环,计算向量\theta中每个元素\theta_i 的双边误差,如下公式所示:

d\theta_{approx}[i] = \frac{J(\theta_1,\theta_2,…\theta_i+\epsilon…)-J(\theta_1,\theta_2,…\theta_i-\epsilon…)}{2\epsilon} \tag{13}

  • 依次计算d\theta_i = \frac{\partial J}{\partial \theta_i},并比较其值是否接近,根据欧几里德范数比较,如公式(14)所示。

比较两者是否接近的公式可以如下所示: \epsilon =\frac{||d\theta_{approx[i]} - d\theta_i||_2}{||d\theta_{approx[i]} + d\theta_i||_2} \tag{14}

注意:欧几里德范数{||d\theta_{approx[i]} - d\theta_i||_2}表示求取两者误差平方之和,再求平方根,公式(14)中的分母能够有效预防这些向量太小或者太大。

一般而言,通过计算得到的\epsilon \leq 10^{-7},表示算法运行正常。

梯度检验的注意事项

实施梯度检验的过程中,有以下几点注意事项:

  • 不要在训练过程中使用梯度检验,因为梯度检验需要利用反向传播算法计算每一个d\theta,会消耗大量的时间和资源。

  • 如果梯度检验失败,要检查所有项,查找不同的i值,查明具体是哪一项d\theta[i]d_{approx}[i]的差值较大,从而更加精确的定位bug

  • 实施梯度检验的过程中,不要忘掉正则项,因为正则项也包括了参数wb

  • 不要同时使用梯度检验和dropout,因为dropout可能会随时消除隐藏层单元的一些子集,很难计算损失函数J.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343