统计学习
- 定义:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。(by Herbert A. Simon)
- 统计学习三要素:模型,策略,算法
- 监督学习的学习方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
- 实现统计学习方法的步骤如下:
(1) 得到一个有限的训练数据集合
(2) 确定包含所有可能的模型的假设空间,即学习模型的集合
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法,即学习的算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析 - 监督学习分为两个过程,由学习系统与预测系统完成
监督学习
统计学习三要素
-
策略
6.1 损失函数与风险函数
损失函数用于度量预测错误的程度,是 f(X) 和 Y 的非负实值函数,记作L(Y, f(X)) 形式:0-1 quadratic absolute logarithmic
损失函数的期望称为风险函数
学习的目标就是选择期望风险最小的模型
监督问题是一个病态问题
6.2 经验风险最小化和结构风险最小化