统计学习基本概念
- 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。现在,当人们提及机器学习时,往往是指统计机器学习。
- 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
- 统计学习的目的:统计学习用于对数据进行预测和分析,特别是对未知新数据进行预测与分析。
- 统计学习包括监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等。
- 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。
- 重要概念:
- 假设空间(hypothesis space):要学习的模型所属于的某个函数的集合,即学习模型的集合
- 输入输出空间(input output space):输入与输出所有可能取值的集合
- 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应与一个特征。模型实际上都是定义在特征空间上的。
- 输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题成为分类问题;输入变量与输出变量均为变量序列的问题称为标注问题。
- 监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数。需要注意的是在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据和测试数据被看做是依据联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设是监督学习关于数据的基本假设。
- 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于有输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。