基本概念
通常我们会使用过拟合和欠拟合来形容一个模型的能力欠佳,欠拟合就是由于模型的复杂度低等原因导致模型没有很好的采集数据集的特征,导致模型的训练误差(亦称为经验误差)过大;而过拟合则是由于模型预设的复杂度太高等原因导致模型采集到了一些仅适用于训练样本本身的特征(个性,噪声),从而导致泛化能力欠佳。直白的讲,欠拟合就是模型对训练集本身的数据学习地不到位,而过拟合则是模型对训练样本进行了过度解读,增大了模型的局限性。
欠拟合和过拟合是对误差定性的评判,而误差的定量评判,便是偏差和方差。
偏差
偏差,指的是训练集的训练出的所有模型输出的均值和真实模型输出之间的偏差。简单地讲,偏差是因为我们对真实模型作出了错误的假设导致的,比如真实模型是一条抛物线,而我们的假设是一条直线。
- 总结:偏差度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。
方差
所有训练模型的输出的方差。简单地讲,方差描述了训练模型所学习到的训练集内的个体差异。
- 总结:方差度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。
可以通过下图直观地理解偏差及方差变动对模型误差的影响。
可以看到,偏差越大,点集整体越脱离靶心;而方差越大,点集整体越离散。
泛化误差
泛化误差:模型在新样本集(测试集)上的平均误差。
其中噪声描述了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小。这是因为复杂度越高,模型对该特定样本个体特征的表现能力越强,因此偏差会减小,但代价是增加了该模型的局限性和对样本变动的敏感性。
- 此时可能会有人思考一个问题,既然偏差和方差互相伤害,是不是不存在十全十美的上帝模型?
我活了二十多年,对审美有一定的研究,根据我以往的经验,越是不可描述,人们往往越是期待越想挑战。
十全十美的上帝模型有很多,但它们背后的数据集都是没有实际价值的,水清则无鱼,一味追求完美往往会得到虚无,而数据的价值源于内在的关系和矛盾,这正是数据挖掘的意义和魅力所在。
那什么是审美?
审,就是你看到她。美,就是你看不透。
VC维
- 增长函数,打散和对分
给定假设空间,中每个假设都能对中示例赋予标记,标记结果可表示为
随着的增大,中所有假设对中的示例所能赋予标记的可能结果数也会增大。
定理12.6 对所有
增长函数表示假设空间H对m个示例所能赋予标记的最大可能结果数。
比如说现在数据集有两个数据点,考虑一种二分类的情况,可以将其分类成A或者B,则可能的值有:AA、AB、BA和BB,所以这里增长函数的值为4。
增长函数值越大则假设空间H的表示能力越强,复杂度也越高,学习任务的适应能力越强。不过尽管H中可以有无穷多的假设h,但是增长函数却不是无穷大的:对于m个示例的数据集,最多只能有个标记结果,而且很多情况下也达不到的情况。