2018-08-12

统计学习方法笔记(一)

1.1实现统计学习方法的步骤

1.得到一个有限的训练数据集。

2.确定包含所有可能的模型的假设空间,即学习模型的集合。

3.确定模型选择的准则,即学习策略。

4.实现求解最优模型的算法,即学习方法。

5.通过学习方法选择最优化模型。

6.利用学习的最优化模型对数据进行预测或分析。

1.2监督学习

输入变量与输出变量

(表示方法按主流表示)

1.特征向量:x=(x1,x2,...xn)T

2.x(i) 表示第i个输入实例:x(i)=(x1(i),x2(i)...xn(i))T

3.训练集表示为:T={(x(1),y1),(x(2),y2)...(x(n),yn)}

4.输入变量与输出变量写作:X,Y; 其取的值写作:x,y。

问题类型

样本:测试数据由输入和输出组对组成,输入与输出对又称为样本。

回归问题:输入变量与输出变量均为连续变量的预测问题。

分类问题:输入变量与输出变量均为有限个离散变量的预测问题。

标注问题:输入变量与输出变量均为变量序列的预测问题。

联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。此为监督学习的基本假设。

假设空间

输入空间到输出空间的映射的集合,就是假设空间。

监督学习的模型可以为概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,具体值预测写作P(y|x)或y=f(x)

1.3统计学习三要素

<u>方法=模型+策略+算法</u>

模型

所要学习的条件概率分布或决策函数==模型\subseteq模型假设空间

令假设空间为\digamma,参数向量\theta取值于n维欧式空间Rn,称为参数空间。

假设空间可以定义为决策函数的集合:

\digamma={f|Y=f(X)}

X和Y是定义在输入空间\chi和输出空间\gamma上的变量,这时\digamma通常是由一个参数向量决定的函数族:

\digamma={f|Y=f_{\theta}(X),\theta\in{R^n} }

假设空间也可以定义为条件概率的集合

\digamma={P|P(Y|X)}

X和Y是定义在输入空间\chi和输出空间\gamma上的变量,这时\digamma通常是由一个参数向量决定的条件分布族:

\digamma={P|P_{\theta}(Y|X),\theta\in{R^n}}

策略

损失函数度量模型预测一次的好坏

风险函数度量平均意义下模型预测的好坏

​ 监督学习问题是在假设空间中\digamma中选取模型f作为决策函数,给定的输入X,由f(X)给定输出Y,这个输出的预测值f(X)与真实值Y会有所误差,用一个损失函数或代价函数来度量预测错误的程度,损失函数f(X)和Y的非负实值函数记作L(Y,f(X))。

常用损失函数:

1.0-1损失函数

L(Y,f(X))=\left\{\begin{array}{cc} 1, & Y{\ne}f(X)\\ 0, & Y=f(X) \end{array}\right.

2.平方损失函数

L(Y,f(X))=(Y-f(X))2

3.绝对损失函数

L(Y,f(X))=|Y-f(X)|

4.对数损失函数或对数似然损失函数

L(Y,P(Y|X))=-logP(Y|X)

经验风险:

通过损失函数我们可以得到对于单个样本的预测能力,对于训练样本集中所有数据的预测可以通过累加得到再取平均值,这就是经验风险:

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y^{(i)},f(x^{(i)})

期望风险:

当样本容量足够时,经验风险越小则说明对于训练集数据的拟合程度越好,由于未知样本的数量不知,无法采取平均值的方式求得。这里假设X,Y服从联合分布P(X,Y),期望风险可表示为:

R{exp}(f)=E_p[L(Y,f(x))]=\int_{xy}L(y,f(x))P(x,y)dxdy

结构风险:

但是由于联合分布函数P(X,Y)是很难求得的。所以期望风险是不容易得到的。但是如果采用经验风险来代替期望风险,当训练集数据过小时有可能出现过度拟合的问题,即决策函数对于训练集几乎全部拟合,但是对于测试集拟合效果过差,于是·这里又引入结构风险:

R_{srm}(f)=\frac{1}{N}\sum^N_{i=1}l(y^{(i)},f(x^{(i)}))+\lambda{J(f)}

经验风险越小,模型决策函数越复杂,包含参数越多,拟合效果越好,但是到一定程度又容易出现过度拟合的问题,这里引入正则化项,其中λ是参数,J(f)表示模型复杂度,通过降低模型复杂度来防止过拟合的出现,即\lambda{J(f)}的值最小化,因为经验风险目的是求的最小化,正则化目的也是求取最小化,因此这里将两者相加来求取最小化,即可得结构风险。

经验风险是局部概念,针对训练样本的损失函数,可求得。
期望风险是全局概念,针对未知测试样本的损失函数,不可求得。
结构风险是两者的折中处理,是经验风险和正则化的加和。

算法

算法是只学习模型的具体计算方法,统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑求解最优模型的计算方法。

即:统计学习方法为求解最优解的方法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容