2021-01-25

机器学习(周志华) 参考答案 第十二章 计算理论学习
机器学习(周志华西瓜书) 参考答案 总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910
从三个方面来确定泛化误差的上界,确定学习的可行性。
1.试证明Jensen不等式:对任意凸函数f(x),有f(E(x))≤E(f(x))。
显然,对任意凸函数f(x),必然有f(αx_1+(1-α)x_2) \leq αf(x_1)+(1-α)f(x_2)

f(E(x))=f(\frac{1}{m}\sum_i^mx_i)=f(\frac{m-1}{m}\frac{1}{m-1}\sum_i^{m-1}x_i+\frac{1}{m}x_i)

α=\frac{m-1}{m}

所以:f(E(x)) \leq \frac{m-1}{m}f(\frac{1}{m-1}\sum_i^{m-1}x_i)+\frac{1}{m}f(x_m)

以此类推得:
f(E(x)) \leq \frac{1}{m}f(x_1)+\frac{1}{m}f(x_2)+.......+\frac{1}{m}f(x_m)=E(f(x))

2.试证明引理12.1。
引理(12.1)若训练集D包含m个从分布Ɗ上独立同分布采样而得的样例,0<ε<1,则对任意h \in H,有P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}

已知Hoeffding不等式:若x_1,x_2....x_m为m个独立的随机变量,且满足0 \leq x_i \leq 1,则对任意ε>0,有

P(|\frac{1}{m}\sum_i^mx_i-\frac{1}{m}\sum_i^mE(x_i)|\geq ε) \leq 2e^{-2mε^2}

x_i替换为损失函数l(h(x_i) \neq y_i),显然0 \leq l(h(x_i) \neq y_i) \leq 1,且独立。

带入Hoeffding不等式得:
P(|\frac{1}{m}\sum_i^ml(h(x_i) \neq y_i)-\frac{1}{m}\sum_i^mE(l(h(x_i) \neq y_i))|\geq ε) \leq 2e^{-2mε^2}

其中\hat{E}(h)=\frac{1}{m}\sum_i^ml(h(x_i) \neq y_i)

E(h) =P_{x \in Ɗ}l(h(x) \neq y) =E(l(h(x) \neq y)) = \frac{1}{m}\sum_i^mE(l(h(x_i) \neq y_i))

所以有:P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}

3.试证明推论12.1。
推论(12.1):若训练集D包含m个从分布Ɗ上独立同分布采样而得的样例,0<ε<1,则对任意h \in H,式(12.18)以至少1-δ的概率成立。
式(12.18):\hat{E}(h)-\sqrt{\frac{ln(2/δ)}{2m}} \leq E(h) \leq \hat{E}(h)+\sqrt{\frac{ln(2/δ)}{2m}}

有引理(12.1)可知,P(|\hat{E}(h)-E(h) |\geq ε) \leq 2e^{-2mε^2}成立

P(|\hat{E}(h)-E(h) |\leq ε) \leq 1-2e^{-2mε^2}

δ=2e^{-2mε^2},则ε=\sqrt{\frac{ln(2/δ)}{2m}}

所以|\hat{E}(h)-E(h) |\leq \sqrt{\frac{ln(2/δ)}{2m}}的概率不小于1-δ
整理得:\hat{E}(h)-\sqrt{\frac{ln(2/δ)}{2m}} \leq E(h) \leq \hat{E}(h)+\sqrt{\frac{ln(2/δ)}{2m}}以至少1-δ的概率成立。

4.试证明:R^d空间中线性超平面构成的假设空间的VC维是d+1。
线性空间超平面公式为w^Tx+b=0,超平面将空间分为二块,即二分类。
R^d空间中不共超平面的d+1个点,为了简化,假设是各坐标轴基向量和原点。
设A是(d+1)*(d+1)矩阵,第一列是b的系数1,第二列起是各个点的坐标。
X=\begin{vmatrix}1 & 0 & 0 & ... & 0\\ 1& 1 & 0 & ... & 0\\ 1& 0 & 1 & ... & 0\\...& ... & ... & ... & ...\\ 1& 0 & 0 & ... & 1\end{vmatrix},w=\begin{vmatrix}b\\ w_1\\ w_2\\...\\ w_d\end{vmatrix}
要证明的是,对于任意的y,存在w使得Xw=y成立。
由于X是可逆矩阵,可以得w=X^{-1}y使得Xw=y成立。所以VC维至少是d+1。
由于R^d空间中的d+2个点必然线性相关,将第d+2个点写成前n+1个点的线性组合:
x_{d+2}=\sum_i^{d+1}p_ix_i
则:y_{d+2}=\sum_i^{d+1}p_iy_i
对任意的y_i(i \leq d+1),取p_i=sign(y_i),得到y_{d+2}>0恒成立,所以此时x_{d+2}无法被打散。
即VC维小于d+2。
所以R^d空间中线性超平面构成的假设空间的VC维是d+1。

5.试计算决策树桩假设空间的VC维。
如果是非连续属性,通过决策树一次划分无法确定节点个数,可能导致VC维无限大。
仅考虑连续属性单变量的决策树桩。
由于决策树的划分是与坐标轴平行的超平面,显然平面上的2个点是可以被打散的,即VC维大于等于2。
对于平面的3各点,如果其中两个点的连线与一条坐标轴平行,另两个点的连线与另一坐标轴平行。比如(0,0),(0,1),(1,0)三个点,无法通过一个与坐标轴平行的超平面来划分。所以VC维小于3。
所以决策树桩假设空间的VC维是2。

6.决策树分类器的假设空间VC维可以为无穷大。
由于决策树如果不限制伸展,会包含整个假设空间。对任意多的样本,决策树可以使得训练误差为0,所以VC维是无穷大。

7.试证明:最近邻分类器的假设空间VC维为无穷大。
最近邻分类器,也就是1NN,总是会把自己分类成自己的样本分类,所以对任何数目的样本训练误差恒为0。如图所示
8.试证明常数函数c的Rademacher的复杂度为0。
常数函数c的Rademacher的复杂度为\hat{R}_Z(C)=E_σ[\frac{1}{m}σ_iC(z_i)]
其中σ_i是随机变量,以0.5的概率取1,0.5的概率取-1。
所以E(σ_i)=0
\hat{R}_Z(C)=E_σ[\frac{1}{m}\sum_i^mσ_iC(z_i)]=\frac{c}{m}\sum_i^mE[σ_i]=0

9.给定函数空间F_1,F_2,试证明Rademacher复杂度R_m(F_1+F_2) \leq R_m(F_1)+R_m(F_2)
R_m(F_1+F_2)=E_{Z \in Ƶ:|Z|=m}[\hat{R}_Z(F_1+F_2)]

\hat{R}_Z(F_1+F_2)=E_σ[sup_{f_1 \in F_1,f_2 \in F_2}\frac{1}{m}\sum_i^mσ_i(f_1(z_i)+f_2(z_i))]

f_1(z_i)f_2(z_i) < 0时,σ_i(f_1(z_i)+f_2(z_i)) < σ_{i1}f_1(z_i)+σ_{i2}f_2(z_i)

f_1(z_i)f_2(z_i) \geq 0时,σ_i(f_1(z_i)+f_2(z_i)) = σ_{i1}f_1(z_i)+σ_{i2}f_2(z_i)

所以\hat{R}_Z(F_1+F_2) \leq \hat{R}_Z(F_1) +\hat{R}_Z(F_2)

即:R_m(F_1+F_2) \leq R_m(F_1)+R_m(F_2)

10.考虑定理12.8,试讨论通过交叉验证法来估计学习算法泛化能力的合理性。
K折交叉验证,当K=m时,就成了留一法。
由式(12.59):l(Ƹ,D) \leq l_{loo}(Ƹ,D)+β+(4mβ+M)sqrt{\frac{ln(1/δ)}{2m}}
ε=β+(4mβ+M)sqrt{\frac{ln(1/δ)}{2m}}时,可以得到:

l(Ƹ,D) - l_{loo}(Ƹ,D) \leq ε以至少1-δ/2的概率成立,所以留一法有不错的泛化能力。
前提条件是Ƹ对于损失函数l满足β均匀稳定性,且β应该是O(1/m)这个量级。
仅拿出一个样本,可以保证很小的β
随着K的减小,训练用的样本会减少,β逐渐增大,当β超出O(1/m)量级时,交叉验证就变得不合理了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • VR:Virtual Reality 虚拟现实官方介绍如下:VR是Virtual Reality的缩写,中文的意...
    MathPhilosophy阅读 1,120评论 0 2
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,454评论 16 22
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,534评论 0 11
  • 可爱进取,孤独成精。努力飞翔,天堂翱翔。战争美好,孤独进取。胆大飞翔,成就辉煌。努力进取,遥望,和谐家园。可爱游走...
    赵原野阅读 2,705评论 1 1
  • 在妖界我有个名头叫胡百晓,无论是何事,只要找到胡百晓即可有解决的办法。因为是只狐狸大家以讹传讹叫我“倾城百晓”,...
    猫九0110阅读 3,247评论 7 3