深度学习（五）：机器学习基础

版权声明:本文为博主原创文章，转载请注明出处，商业转载请联系作者(huxingfei097@163.com)，谢谢合作！

何为学习
对机器学习中的“学习”比较正式的定义是：对于某类任务 P 和性能度量 T，一个计算机程序被认为可以从经验 E 中学习是指，通过经验 E 改进后，它在 T 上有性能度量 P 衡量的性能会有所提升。更通俗一些的解释是，对于一个人脸检测任务（任务T），我们可以以识别准确率（性能度量P）来衡量学习算法的好坏，在利用 n 张有标注的图片（已有经验E）进行训练后，可以提高算法最终的识别准确率。
常见的机器学习任务
分类：确定输入的数据属于 k 类中的哪一类。如对象识别等。
回归：对于给定的输入预测输出结果，如预测房屋价格等。
转录：将观测到的相对非结构化表示的数据，转换为离散的文本形式。如现在流行的OCR技术、语音识别技术等。
机器翻译：将输入的一种语言符号序列转换为另外一种语言的符号序列，中文←→英语等。
异常监测：计算机程序在一组事件或者对象中进行筛选，并标记处不正常或非典型的个体，如通过对用户购买习惯建模，当信用卡被盗刷而买了不一样的东西时，信用卡公司可以检测出消费发生异常，从而增加手机验证等相关安全步骤。
容量、过拟合和欠拟合
机器学习的主要挑战是所设计的算法能否在先前未观察到的新的输入数据上具有良好的表现，即泛化能力。
通常，会将给定的数据集分为训练集、验证集、测试集。在训练集上，真实值与预测结果之间的差异称为训练误差，训练的目标是尽可能降低训练误差。同时，也希望泛化误差（也称为测试误差，即在测试集上真实值与预测结果之间的差异）很低。
欠拟合：算法在训练集上的训练误差很大（测试集上的泛化误差通常也会很大）。
过拟合：算法在训练集上表现的很好，训练误差很小，但是在测试集上反而表现很差，泛化误差很大。
容量：模型的容量一般是指其拟合各种函数的能力。可以认为是一个函数集合，可以选择其中的函数来对模型进行训练。容量大的模型，可选函数多，但是容易导致过拟合；容量小，可选函数少，容易导致欠拟合。

在机器学习算法中挑选函数时，通常会遵循奥卡姆剃刀原则，简单来说，就是在能够满足要求的情况下（如训练误差已经小于规定阈值），选择最简单的一个。
量化模型容量的方法中最著名的是Vapnik-Chervonenkis维度，简称VC维。VC维定义为分类器能够分类的训练样本的最大数目，即，对于一个函数集，如果存在 H 个样本能够被函数集中的函数按所有可能的（共 2^H种）形式分开，则称函数集能够将 H 个样本打散，函数集的VC维就是它能够打散的最大样本数目 H_max。如果对任意数目的样本，在该函数集中都能找到函数将它们打散，则称该函数集的VC维是无穷大。
没有免费午餐定理（no free linch theorem）
在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上都有的错误率，换句话说，没有一个机器学习算法总是比其他的要好。我们能够设想的最先进的算法和简单地将所有点归为一类的简单算法有着相同的平均性能（在所有可能的任务上）。但是，通常不需要考虑所有的可能。
正则化
在机器学习算法中，增加训练参数的数量往往会降低训练误差，但同时很可能会带来过拟合的问题，为了平衡训练误差与泛化误差，通常可以给代价函数加入称为正则化项的惩罚。例如在线性回归中，可以加入权重衰减系数来防止模型过于复杂：
J(w) = MSE_train + λ w^Tw MSE_train，表示训练集上的误差
其中 w 是线性回归中权重参数矩阵， λ 是提前挑选的值，当 λ = 0时，即不考虑权重，当 λ 偏大时，权重的影响较大，会使我们倾向于选择更加简单的模型。
超参数和验证集
超参数是指在开始学习过程之前设置好的参数，而不是通过训练得到的。因为有些参数很难优化，并且不适合在训练集上学习，例如线性回归中多项式的次数，因此往往需要在学习过程开始之前依据经验设置。
超参数的选取在很大程度上影响着训练结果的好坏，通常选取会先选取多个超参数进行训练，然后使用验证集来评估每个模型的好坏并选择最终要使用的超参数。
交叉验证
将数据集分为训练集、验证集、测试集时，由于某些数据集很难收集到足够多的数据（如一些医学上的数据），会导每个数据集的数据很少。小规模数据集训练出来的模型可能在训练集上表现的很好，但是测试集表现的很差，甚至有可能在测试集上也表现的很好，但是这无法让我们合理地评价一个模型的好坏，因为测试集的数据很少，仅在少部分数据上表现优异，不能充分的证明在数据足够多时也能表现很好。
为了解决数据集过小的问题，可以使用交叉验证的方法。即，将数据集随机分成 k 个不重合的子集，在第 i 次测试时，数据的第 i 个子集用于测试集，其他的数据作为训练集，最后计算平均测试误差。
估计、偏差和方差
点估计是为一些感兴趣的量提供单个“最优”预测，令{x⁽¹⁾，...，x^(m)}是 m 个独立同分布（i.i.d）的数据点，则参数 θ的点估计θ^{^}为：
θ^{^}_m = g(x⁽¹⁾，...，x^(m))
函数估计是对输入变量 x 和输出结果 y之间关系的预测，即近似得到 y = f(x) + ε中的 f(x)。
偏差
估计的偏差被定义为：
bias(θ^{^}_m) = E(θ^{^}_m) - θ
如果bias(θ^{^}_m) = 0，则称 θ^{^}_m 是无偏的，如果 lim_m→∞bias(θ^{^}_m) = 0,则称 θ^{^}_m 是渐进无偏的，否则称其为有偏的。
方差和标准差
方差衡量每次估计与之前估计的差距的大小，描述的是估计值的稳定性
Var(θ) = E[ (θ - E(θ))²]
标准差是方差的平方根。
方差与偏差的权衡
通常采用交叉验证的方法来判断权衡。也可以比较这些估计的均方误差（MSE）:
MSE = E[(θ^{^}_m - θ)²]
一致性
一致性定义为：
plim_m→∞θ^{^}_m = θ
plim称为依概率收敛，即对于任意的 ε > 0，当 m → ∞时，有 P(|θ^{^}_m - θ| > ε) → 0.
一致性保证了估计量的偏差会随数据样本数目的增多而减少。
最大（极大）似然估计
在机器学习中，我们会希望有些准则可以让我们从不同的模型中得到特定函数作为好的估计，而不是猜测某些函数可能是好的估计，然后分析其偏差和方差。最常用的准则是最大似然估计。
简单来说，最大似然估计就是在已知结果的情况下，推测最可能导致发生该结果的原因。一个很经典的案例如下图所示：

推导：已知数据分布{x⁽¹⁾，...，x^(m)}，希望求得最有可能的数据生成分布，则可以令似然函数为：
L( x⁽¹⁾，...，x^(m)，θ) = P(x⁽¹⁾，...，x^(m) | θ)
= ∏ P(x⁽ⁱ⁾ | θ) 其中∏表示连乘
其中 θ 是对分布中某一个参数的估计（如估计高斯分布的均值或者方差时，θ 可以表示要求的均值或者方差）。由于乘法在求导过程中比较难处理，通常会两边取对数，即：
ln L( x⁽¹⁾，...，x^(m)，θ) = ln ∏ P(x⁽ⁱ⁾ | θ)
通常情况下再对 θ 求导后，令求导后的结果等于0，即可求出 θ 的值，表示在 θ 取得该值时出现数据分布{x⁽¹⁾，...，x^(m)}的概率最大。
贝叶斯统计
在概率论中有频率派和贝叶斯派。前者认为事物是有分布的，且分布的参数是固定的，通过无限次的抽样可以得到（计算出）真正的参数值，而后者认为我们无法预知事物的分布，只能依据经验做出一些假设（先验分布），然后通过不断地实验进行调整假设，最终得出结果（后验分布）。
在贝叶斯统计中，在观察到数据之前会将 θ（同最大似然估计中的 θ）的已知知识表示成先验概率分布，p(θ)，同时会普遍选择高熵的分布（均匀分布、高斯分布等），以表示在观测到数据之前参数 θ 的高度不确定性。
假设有数据分布{x⁽¹⁾，...，x^(m)}，结合贝叶斯规则和先验，可以得出：
最大似然估计与贝叶斯统计的区别
首先，最大似然估计使用的是点估计，而贝叶斯统计使用的是 θ 的全分布，和之前的数据都有关系，因此在观测到 m 个样本后，第 m+1个样本预测的分布如下：

贝叶斯方法和最大似然方法的第二个最大区别是由贝叶斯先验分布造成的。先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。
当训练数据很有限时，贝叶斯方法通常泛化得更好，但是当训练样本数目很大时，通常会有很大的计算代价。
机器学习的一些挑战
维数灾难：当数据的维数很高时，很多机器学习问题变得相当困难，一组变量不同的可能配置数量会随着变量数目的增加而指数级增长。
局部不变性和平滑正则性：为了更好的泛化，我们假设了一些先验分布，通常会考虑平滑先验或者局部不变性先验，很多简单算法依赖于此得到良好的泛化，然而不能推广去解决人工智能级别任务中的统计挑战。

接下来会正式开始更新深度网络相关的文章，同时也会穿插一些机器学习算法，如SVM、决策树、隐马尔可夫模型等相关文章。

参考资料
《深度学习》
本系列相关文章
深度学习（六）：前向传播算法和后向传播算法
 深度学习（四）：数值计算基础
 深度学习（三）：概率与信息论基础
 深度学习（二）：主成分分析算法
 深度学习（一）：线性代数基础

深度学习新手，文章若有疏漏，欢迎及时指正！

最后编辑于：2019.08.26 18:20:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

深度学习（五）：机器学习基础

推荐阅读更多精彩内容