聊到这几个概念,一般人如果不认真看,还真容易搞混。看上去貌似很高大的术语,其实理解后很简单。接下来,咱们就看下。
偏差
是指在同一份数据集上,训练一个模型,模型的预测值和r人工标注值(注意人工标注值并非Ground Truth,人工会有失误,错误)之间的差距。
方差
多个大小规模一样的不同数据集,训练多个不同的模型,每个模型都会有一个预测值,然后算不同预测值的方差。
这里请注意:
方差是衡量不同模型预测结果的一致性,也就是模型的稳定性,如果在不同训练集上,训练出来的多个模型,大家高度一致,那么方差就小,否则方差大。方差小,也说明了,模型在未知数据上的泛化能力强. 当在一份数据上训练模型时,其他训练数据,可能看成验证集,其他数据训练的模型和当前这份高度一致,不就是说明了训练集和验证集指标一样,没有过拟合,泛化能力强
噪声
噪声是指标注的错误,为Ground Truth与数据集中的实际标记间的偏差
泛化误差
理解
这几个指标很好理解,结合下面这张图:
- 红色线 偏差 Bias
| 训练开始阶段: 模型欠拟合,所以预测不准,导致偏差大。
| 随着训练时间增加,模型拟合越来越好,导致偏差越来越小。
| 当训练时间很长时,模型过拟合,但是别忘了,偏差可是在同一份数据上算的,过拟合时,在这份数据上预测肯定很准,偏差会很小的。 - 绿色线 方差 Variance
| 训练开始阶段: 无论在哪个数据集上,大家都欠拟合,都不准,可能大家预测的准确率高度一致。 导致方差大。
| 随着训练时间增加,模型拟合越来越好,大家预测的结果大部分一致,也有一部分不一致,所以方差就会加大
| 当训练时间很长时,模型过拟合,导致大家都在自己的训练数据上预测的很牛逼,在其他的数据上很差,因此大家结果不一致,方差较大。 - 泛化误差 黑线
是方差和偏差的和,可以发现
| 训练开始阶段: 模型欠拟合,所以预测不准,导致泛化误差大。
| 随着训练时间增加,模型拟合越来越好,导致泛化误差越来越小
| 当训练时间很长时,模型过拟合,方差变大,导致泛化误差越来越大
结论
方差是体现的未知数据的泛化能力。
偏差是体现的当前训练数据上的 拟合能力。
泛化误差 模型的综合能力。 兼顾 当前数据和未知数据的 综合能力。
<==============================================>
问题
Boosting/Bagging 与 偏差/方差 的关系?
-
这种组合提升弱分类器性能原因:
| Boosting : 由于会不断地重视分错误的样本学习,会使得模型在当前数据集上学习的特别好。
使得偏差很低。
缺点: 每轮迭代学习的学习器是强相关的,缺少独立性。 没有那种随机性的特点,导致在本数据上偏差很低,容易过拟合。| Bagging : 由于多个数据训练集 训练了多个模型。利用投票原理,保证众投的结果相对稳定,不会有太大的波动,因此会降低方差。
从另一个角度也可以发现,N个独立不相关的模型众投取平均,那么方差就是原来的1/n. 假设所有分类器出错的概率都是独立,超过半数都出错的概率会随着, 基分类器的增加而下降。