ERM
真实损失
定义为总体分布,为真实标签函数,为标签函数,也叫模型或分类器。
为在总体分布和真实标签函数分别为D和f时h所对应的误差,也叫做真实损失。其公式为
经验损失
抽取个独立同分布样本,组成一个m-tuples的样本组,将的集合定义为样本集。
以[m]表示数据集{1,2,...,m},表示形式上的经验损失函数。
则有如下经验损失的定义公式
当时,可训练得到模型。过拟合
定义为误差精度,过拟合是指经验损失可训练而真实损失超过了误差精度,表达式为
为消除过拟合,我们主要手段是限制合理模型范围。经验风险最小化(ERM)
定义模型的有限假设类,则令
置信度
误导集
定义模型的有限假设类,则无效的模型集合为
定义表示样本集中的一个样本组,则样本组的误导集可表示为
置信度
定义为抽取到无效样本组的概率,为置信度。其定义式为
如下推导
得到
样本量
举例:性别估计是个二分类,假设使用1000个0-1特征,则,根据经验,希望的精度,则样本量
设模型参数数量为N,参数取值范围为R,则
可见样本数量应与参数数量N成正比例关系。