统计学习
“学习”的定义:“如果一个系统能通过执行某个过程改进它的性能,这就是学习”。
现如今的机器学习一般就是统计机器学习。
统计学习的对象:data
- 提取特征
- 抽象模型
- 进行分析和预测
统计学习的目标:
- 学习什么样的模型
- 如何学习模型
统计学习方法类型:
- supervised learning
- unsupervised learning
- semi-supervised learning
- reforcement learning
- more...
统计学习的步骤
- 得到一个有限的训练数据集合, training data
- 确定所有学习模型的集合,model
- 确定模型选择的准则,strategy
- 实现求解最优模型的算法,algorithm
- 通过学习方法选择最优方法
- 利用最优模型对新数据进行预测分析
监督学习
过程: 输入 ----------> 特征向量 ------>特征空间 ----->输出空间
输入变量X,输出变量Y:
- 回归问题:输入输出均为连续变量的预测问题
- 分类问题:输入输出均为有限个离散变量的预测问题
- 标注问题:输入输出均为变量序列的预测问题
统计学习三要素
模型
统计学习首要考虑的问题。
在监督学习中,模型就是所要学习的条件概率分布或决策函数。-
策略
- 损失函数
- 定义:用来度量输出的预测值f(X)与真实值Y之间不一致(错误)的程度。
- 常见损失函数:0-1损失函数,平方损失函数
记作L(f(X),Y) - 意义:损失函数数值越小,模型就越好。
- 期望风险:Rexp(f)
- 风险函数
- 经验风险
定义:模型关于训练数据集的平均损失。
Remp(f) : sum(L(yi,f(xi)))/N,当N趋于无限大式,经验风险趋于期望风险。
经验风险最小化容易导致过拟合现象 - 结构风险
意义:防止过拟合
定义: 在经验风险的基础上加上表示模型复杂度的正则化项或罚项
Rsrm(f) : sum(L(yi,f(xi)))/N + lambda(J(f))
- 经验风险
- 损失函数
算法
经过策略,问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
挑战:如果保证找到全局最优解,并使求解的过程非常高效。