监督学习
监督学习的特点:训练样例是带有标签的。也就是人们已经知道应该如何划分成几种特定的类型。对于训练数据,人们能预测出准确的结果。
而无监督学习相反,人们本身不知道划分的结果,完全根据数据自身的特点分类。
输入数据
每个输入数据是一个实例,由特征向量表示。
训练集
训练集由相应的输入与输出对确定。又称为样本、样本点。
问题分类
输入与输出都为连续的称为回归问题。
输出是有限个离散的预测问题是分类问题。
输入与输出变量均为变量序列的预测问题为标注问题
联合概率分布
监督学习假设输入变量X与输出变量Y遵循联合概率分布 P(X,Y).,训练数据与测试数据被看做依联合概率分布P(X,Y)独立同分布产生的。
假设空间
模型确定了输入变量与输出变量的映射关系。学习的目的就是在于找到最好的这样的模型。假设空间由输入空间到输出空间的映射的集合。
三要素
方法 = 模型 + 策略 + 算法
损失函数
又称代价函数,度量预测错误的程度。
经验风险最小化与结构风险最小化
用训练数据集的经验风险估计期望风险。
经验风险最小化(ERM)策略认为经验风险小的模型是最优模型。
而结构风险最小化(SRM)策略认为简单的结构比复杂结构更具有优势(防止过拟合),在ERM的基础上添加了惩罚项。模型越复杂,罚项就越大。
过拟合
随着模型复杂度的增加,训练误差不断减小,但是测试误差确是先减小后增大。因此在选择模型的时候需要选择复杂度适当的。
正则化与交叉验证
正则化是结构最小化的具体实现。
一般有如下格式:
交叉验证
通过训练集训练模型,在测试集上评价模型的好坏。选择测试误差最小的模型。
泛化误差
理论上衡量模型对未知数据的预测能力,是学习方法本质上重要的性质。
现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。