[学习笔记]机器学习(西瓜书)

第1章 绪论

1.1 训练集外误差

对于算法\kappa _{a} ,它的训练集外误差,即\kappa _{a} 在训练集之外的所有样本上的误差为:

E_{ote}(\kappa_a|X,f)=\sum_{h}\sum_{x\in {\chi -X} } P(x) I_{A} (h(x) \neq f(x) )P(h|X,\kappa_a)

其中\sum h为对假设的求和。同一算法对于训练集外(测试集)的不同数据产生的不同的假设,每个假设有不同的概率。

其中我们假设样本空间\chi和假设空间H均为离散的,P(h|X,\kappa_a)为】代表算法基于训练数据X产生假设h的概率,f代表我们希望学习的真实目标函数。

需要说明的是, I_{A} (condition)为指示函数,若condition为真则取值1,否则取值0。

部分公式及原理解释:

ote:off-training-error,即训练集外误差;

x\in {\chi -X}:即样本空间中训练集外的数据;



1.2 NFL定理

对训练集外误差公式继续推导:

考虑二分类问题(即通俗意义上的“是否”、“有无”问题)。我们想要求得的真实目标函数f往往不止一个,因为满足版本空间中的假设的函数都可以是真实目标函数。

对于同一个样本的这个预测值,对于样本空间\chi中的某个样本x,如果f_1(x)=1,f_2(x)=0, 那么这就是两个不同的真实目标函数。

所以对于某个样本可以区分出两个真实目标函数,一共有|\chi|个样本,所以一共有2|\chi|个真实目标函数。

这些真实目标函数是等可能分布的(均匀分布),所以对于某个假设h(x),如果h(x)=0那么就有1/2的概率与真实目标函数相等。

故我们对所有可能的f按均匀分布对误差求和:

\sum_{f} E_{ote}(\kappa_a|X,f)=\sum_{f}\sum_{h}\sum_{x\in {\chi -X} } P(x) I_{A} (h(x) \neq f(x) )P(h|X,\kappa_a)

=\sum_{x \in \chi -X} P(x)\sum_{h} P(h|X,\kappa_a)\sum_{f}I_{A} (h(x) \neq f(x) )

=\sum_{x \in \chi -X} P(x)\sum_{h} P(h|X,\kappa_a)\frac{1}{2}2^{|\chi|}

=\frac{1}{2}2^{|\chi|} \sum_{x \in \chi -X} P(x)\sum_{h} P(h|X,\kappa_a)

注意到\sum_{h} P(h|X,\kappa_a)=1

\sum_{f} E_{ote}(\kappa_a|X,f)=2^{|\chi|-1} \sum_{x \in \chi-X} P(x)

从式子中可以得到,总误差与学习算法无关。故对于任意两个学习算法,我们都有:

\sum_{f} E_{ote}(\kappa_a|X,f)=\sum_{f} E_{ote}(\kappa_b|X,f)

也就可得到NFL定理(No Free Lunch Theorem),大致内容如下:

所有“问题”出现的机会相同、或所有问题同等重要的前提下,对所有可能的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同。



第2章 模型评估与选择

2.1评估方法

①留出法:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S\cup T,S\cap T=\oslash

单次使用留出法得到的估计结果往往不够稳定可靠。使用留出法时,一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果。

缺点:若S包括绝大多数样本,则训练出的模型可能更接近于用D训练出的模型。但由于T较小,评估结果不够稳定准确;若T多包含一些样本,则S与D的差别更大了,被评估的模型与用D训练出的模型相比可能有较大差别,从而降低了评估结果的保真性(fidelity)

常见做法是将[\frac{2}{3},\frac{4}{5} ]的样本用于训练,其余用于测试。

②交叉验证法(又称"k折交叉验证"(k-fold cross validation)):先将数据集D划分为k个大小相似的互斥子集,每个子集D_{i} 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试。最终返回这k个人测试结果的均值。

若令k=m,可得到特例:留一法(Leave-One-Out,LOO)

因为m个样本只有唯一的方式划分为m个子集——每个子集包含一个样本,故留一法不受随机样本划分方式的影响。

留一法使用的训练集与初始数据集相比只少了一个样本,被实际评估的模型往往被认为比较准确

缺点:在未考虑算法调参的情况下,计算开销就已经非常大;留一法的估计结果未必永远准确;NFL定理适用于该方法

③自助法给定包含m个样本的数据集D,我们对它进行采样产生数据集D':每次随机从D中挑选1个样本,将其拷贝放入D',然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到。

此过程重复执行m次,即可得到包含m个样本的数据集D'。

显然,D中一部分样本不会在D'中出现。简单估计下,样本在m次采样后始终不被猜到的概率是

\lim_{m\to \infty} (1-\frac{1}{m})^{m}=\frac{1}{e}\approx 0.368

即通过自助采样,初始数据集D中约有36.8%的样本未出现在采样数据集D'中。

故我们可将D'作为训练集,D\D'用做测试集。

自助法在数据集较小、难以有效划分训练/测试集时很有用。



2.2 性能衡量

1)回归任务常用性能度量:均方误差

E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2

更一般的,对于数据分布D和概率密度函数p(),均方误差为:E(f;D)=\int_{x~D} (f(x)-y)^2p(x)dx

2)分类任务常用性能度量:错误率、精度

错误率:E(f;D)=\frac{1}{m}\sum_{i=1}^{m}I_A(f(x_i) \neq y_i)

精度:acc(f;D)=\frac{1}{m}\sum_{i=1}^{m}I_A(f(x_i)=y_i)=1-E(f;D)

更一般的,对于数据分布D和概率密度函数p()

错误率:E(f;D)=\int_{x~D} I_A(f(x) \neq  y) p(x)dx

精度:acc=\int_{x~D} I_A(f(x) =  y) p(x)dx=1-E(f;D)

3)更泛用的性能度量:查准率和查全率

TP(真正例):真实情况正例,预测结果正例

FN(假反例):真实情况正例,预测结果反例

FP(假正例):真实情况反例,预测结果正例

TN(真反例):真实情况反例,预测结果反例

TP+FP+TN+FN=样例总数

查准率P=\frac{TP}{TP+FP}

查全率R=\frac{TP}{TP+FN}

以P为纵轴,R为横轴作图,就得到“P-R”曲线。

平衡点(BEP):P=R时的取值。基于BEP的比较,可比较学习器的优劣。

F1度量(优于BEP):基于查准率与查全率的调和平均

F1=\frac{2*P*R}{P+R}=\frac{2*TP}{样例总数+TP-TN}

F1度量的一般形式F_\beta:加权调和平均

F_\beta=\frac{(1+\beta^2)*P*R}{(\beta^2*P)+R},其中\beta>0度量了查全率对查准率的相对重要性。

\beta=1时退化为标准的F1,\beta>1时查全率有更大影响,\beta<1时查准率有更大影响。

宏查准率macro-P=\frac{1}{n}\sum_{i=1}^nP_i

宏查全率macro-R=\frac{1}{n}\sum_{i=1}^nR_i

宏F1macro-F1=\frac{2*macro-P*macro-R}{macro-P+macro-R}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容