泛化误差可以分解为偏差、方差和噪声之和
对于测试样本 x,另Yd为 x在数据集中的标记,y为x的真实标记, f(x;D)为训练集D上学得模型f在x上的预测输出,
f(x) = ED(f(x;D))
方差var(x) = ED[(f(x;D)-f(x))^2]
噪声ε^2 = ED((yD-y)^2)
偏差bias^2 = (f(x)-y)^2
偏差度量了学习算法预测结果与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
偏差和方差是有冲突的,称为偏差-方差窘境。
在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使得学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力增强,训练数据发生的扰动被学习器学习到,这时方差主导泛化错误率。
若训练数据自身的,非全局的特性被学习器学到了,则将发生过拟合。