统计学习的对象时数据,它是从数据出发,提取数据的特征,抽取出数据的模型,发现数据中的知识,又回到对数据的分析和预测中去。现在我们提及的机器学习,往往指的都是统计机器学习。统计学习的方法是基于数据构建统计模型,从而对数据进行预测与分析,统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。在日常我们处理的问题中,或者说现在大多数机器学习所要解决的问题都可以划归为监督学习。因此,理解监督学习的常用方法对机器学习入门者或者要进一步理解深度学习涉及的理论至关重要。
监督学习类的统计学习方法可以概括为:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数的集合(假设空间),应用某个准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测,最优模型的选取由算法来实现。 从上面的概括可以总结出,统计学习,或者准确的说监督学习的三要素为:模型、策略和算法。
模型:统计学习首先要考虑的问题是学习什么样的模型,也就是要选择什么样的模型来描述要解决的问题,例如线性模型或者非线性模型。在监督学习过程中,模型指的就是决策函数或者说条件概率分布。决策函数表示的模型为非概率模型,而条件概率分布表示的模型为概率模型。在实际的问题中,通常不过多的区分决策函数或者条件概率分布。
策略:在有了模型的假设空间的基础上,统计学习需要考虑采取什么样的准则或者策略来获得最优模型。监督学习中最常用的学习策略是经验风险最小化和结构风险最小化两种策略;
当样本容量足够大的时候,经验风险最小化能够保证有很好的学习效果,在现实中被广泛采用。比如,极大似然估计就是经验风险最小的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
当样本容量较小的情况下,经验风险最小化函数容易产生样本过拟合的情况,因此,结构风险最小化函数就是为解决这一问题而提出的。结构风险最小化函数是在经验风险最小化函数的基础上增加正则项或者惩罚项(增加正则化化项符合奥卡姆剃刀原理:通俗的讲就是在模型的假设空间中,选择能够很好的解释训练数据并且十分简单的模型才是最好的模型),利用正则项或者惩罚项来抵消或者抑制样本过拟合的情况。正则化项通常是模型复杂度的线性函数,模型越复杂正则化值就越大,例如多项式拟合中,常常用待估计参数的L2范数来表示正则项。结构风险最小化函数通常需要经验风险和模型复杂度同时最小。比如贝叶斯估计中的最大后验概率估计就是结构风险最小化函数的一种体现。
算法:统计学习基于训练数据集,根据学习策略,从假设空间总选择最优模型,最后考虑用什么样的计算方法求解最优模型。也就是采用什么样的算法求得让经验风险或者结构风险函数最小化的参数。(例如梯度下降等算法);
监督学习适用于解决分类问题、标注问题和回归问题三大类问题:主要的统计学习方法包括了感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯蒂回归和最大熵模型、支持向量机、提升方法、EM算法\隐马尔科夫模型和条件随机场。