我们把样本分成三个部分,分别是训练集、验证集和测试集。这里说的学习曲线主要是训练平方误差和验证平方误差曲线,通过观察曲线,我们能够判定模型现在的偏差和方差的状况,以便及时的做出调整。
1、学习曲线
m:训练样本的个数
现在我们是用一个二次函数去拟合训练集。m=1时,就一个点,可以拟合的很好,但是拟合出来的结果泛化性能差;当取m=2、m=3的时候泛化性能会好一点。当随着m的逐渐增大,二次曲线能拟合的不是特别精准,但是差不多,所以训练误差会逐渐的增大,泛化能力也会有所提高。
2、如果是用一次函数拟合,那么随着数据量的逐渐增大,其实这个直线基本上不会有变化,所以最后学习曲线中,两条线很接近。因为用一次函数进行拟合的时候,会产生很大的偏差,训练误差会很大,在高偏差时,验证误差同样很大。所以当我们看到这样的曲线,就知道是高偏差。此时,不管怎么增大训练集,都没有用。
3、当模型很复杂的时候,随着训练集的增大,训练误差会增大,因为模型够复杂,所以损失并不是很多,验证误差会有所下降,但是也不会下降很多,所以高偏差的情况,反映在曲线上就是,两个去曲线中间会有很大的举例,但是随着样本的增多,训练误差会缓缓增大,验证误差会逐渐减小,所以增大样本量是有作用的。