Day3 第一章统计学习及监督学习概论(2)

4 模型评估与模型选择

4.1 训练误差与测试误差

假设学习到的模型是 $Y=\hat{f}(X)$ ，训练误差是模型 $Y=\hat{f}(X)$ 关于训练数据集的平均损失： $R_{\text{emp}}(\hat{f})=\frac{1}{N}\sum\limits_{i=1}^N L(y_i,\hat{f}(x_i))$ 其中 $N$ 是训练样本容量。
测试误差是模型 $Y=\hat{f}(X)$ 关于测试数据集的平均损失： $e_{\text{emp}}(\hat{f})=\frac{1}{N'}\sum\limits_{i=1}^{N'} L(y_i,\hat{f}(x_i))$ 其中 $N'$ 是测试样本容量。

4.2 过拟合与模型选择

当假设空间含有不同复杂度的模型时，就要面临模型的选择问题。所选模型要与“真”模型的参数相同，所选模型的参数向量要与真模型的参数向量相近。如果一味的追求提高对训练集的预测能力，所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合。过拟合指得是学习时选择的模型参数过多，以至出现这一模型对已知数据预测得很好，但是对未知数据预测得很差的现象。可以说模型选择旨在避免过拟合名提高模型的预测能力。
下面介绍两种常用的模型选择方法：正则化与交叉验证。

5 正则化与交叉验证

5.1 正则化

正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项越大。比如，正则化项可以是模型参数向量的范数。
正则化一般具有如下形式： $\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)$ 其中，第一项是经验风险，第二项是正则化项， $\lambda$ 为调整二者之间关系的系数。
正则化符合奥卡姆剃刀 (Occam's razor) 原理。奥卡姆剃刀原理应用于模型选择变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型。

5.2 交叉验证

交叉验证的基本思想是重复地使用；把给定数据进行切分，将切分地数据集组合为训练集与测试集，在此基础上反复地进行训练、测试以及模型选择。
1. 简单交叉验证
简单交叉验证的方法是：首先随机地将已给数据分成两部分，一部分作为训练集，另一部分作为测试集；然后用训练集在各种条件下训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。
2. $S$ 折交叉验证
$S$ 折交叉验证 (S-fold cross vlidation) 是应用最多的交叉验证方法，方法如下：首先随机地将已给数据切分成 $S$ 个互不相交、大小相同的自己；然后利用 $S-1$ 个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的 $S$ 种选择重复进行；最后选出 $S$ 次测评种平均测试误差最小的模型。
3. 留一交叉验证
$S$ 折交叉验证的特殊情况是 $S=N$ ，称为留一交叉验证 (leave-one-out cross vlidation)，往往在数据缺乏的时候使用。

6 泛化能力

6.1 泛化误差

学习方法的泛化能力 (generalization ability) 是指由该方法学习到的模型对未知数据的预测能力。首先给出泛化误差的定义。若学习到的模型是 $\hat{f}$ ，那么用这个模型对未知数据预测的误差即为泛化误差 (generalization error)： $\begin{align} R_{\text{exp}}(\hat{f}) = & \ E_P[L(Y,\hat{f}(X))] \\ = & \int_{\mathcal{X}\times\mathcal{Y}} L(y,\hat{f}(x))P(x,y)\mathrm{d}{x}\mathrm{d}{y}\\ \end{align}$ 泛化误差反应了学习方法的泛化能力，如果一种方法学习的模型比另一种方法学习的模型有更小的泛化误差，那么这种方法就更加有效。

6.2 泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界 (generalization error bound)。对于一般的假设空间要找到泛化误差上界比较困难，这里不做介绍。

7 生成模型与判别模型

生成方法有数据学习联合概率分布 $P(X,Y)$ ，然后求出条件概率分布 $P(Y|X)$ 作为预测的模型，即生成模型： $P(Y|X)=\frac{P(X,Y)}{P(X)}$ 这样的方法之所以称之为生成方法，是因为模型表示了给定输入 $X$ 产生输出 $Y$ 的生成关系。典型的生成模型有朴素贝叶斯与隐马尔可夫模型等。
判别方法由数据直接学习决策函数 $f(X)$ 或条件概率分布 $P(Y|X)$ 作为预测的模型，即判别模型。判别方法关心的是对给定的输入 $X$ ，应该预测怎么样的输出 $Y$ 。典型的判别模型有 $k$ 近邻法、感知机、决策树、Logistics 回归等。
生成模型的特点：可以还原出联合概率分布 $P(X,Y)$ ；收敛速度更快；当存在隐变量时，仍可以使用。
判别模型的特点：学习准确度更高；可以对数据进行各种程度的抽象、定义特征并使用特征，因此可以简化学习问题。

8 监督学习的应用

8.1 分类问题

在监督学习中，当输出变量 $Y$ 取有限个离散值时，预测问题便称为分类问题。这时，输入变量 $X$ 可以时离散的，也可以是连续的。分类的类别为多个是，称为多类分类问题。本书主要讨论二类分类问题。
评价分类器性能的指标一般是分类准确率 (accuracy)，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。也就是 0-1 损失时测试数据集上的准确率。
对于二类分类问题常用的评价指标时精确率 (precision) 与召回率 (recall)。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：
TP——将正类预测为正类；
FN——将正类预测为负类；
FP——将负类预测为正类；
FN——将负类预测为负类；
精确率定义为 $P=\frac{\text{TP}}{\text{TP}+\text{FP}}$
召回率定义为 $R=\frac{\text{TP}}{\text{TP}+\text{FN}}$
此外，还有 $F_1$ 值，是精确率和召回率的调和平均值，即 $\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$ $F_1=\frac{2\text{TP}}{2\text{TP}+\text{FP}+\text{FN}}$

8.2 标注问题

标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。可以认为标注问题是分类问题的一个推广，标注问题有事更复杂的结构预测问题的简单形式。
评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率、精确率和召回率与分类模型相同。
标注常用的统计学习方法有：隐马尔科夫模型、条件随机场。

8.3 回归问题

回归 (regression) 用于预测输入变量（自变量）与输出变量（因变量）之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生变化。回归模型正式表示从输入变量当输出变量之间的函数。回归问题的学习等价于函数拟合。
回归学习最常用的损失函数时平方损失函数，在此情况下，回归问题可以由著名的最小二乘法 (least squares) 求解。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

Day3 第一章 统计学习及监督学习概论(2)