分类,打分,排名和概率预测这些机器学习研究的标签空间是离散的类集合。 但是函数估计器,也叫做回归(regression),是研究真的价值目标变量,是映射 f:x--R, 也可以表示成 (xi, f(xi)),是研究输出预测连续的数值。回归一般用多项式来表示回归函数,多项式的次数越多就越容易过拟合,所以应该选取简单的多项式。毕竟回归研究的是整体数据的趋势,不是要把所有的数据都预测准确。数据一般会有噪音,也就是不准确的信息。
图一可以看出,红线是直线,是一次多项式, 基本把数据趋势描述出来了。黄线是二次多项式也描述出了数据趋势。 蓝线次数最高,几乎把所有点都包含在输出结果上,这样在训练集合上拟合过于完美,很可能在测试集合 (新数据)上会可能造成输出错误的结果,这叫做过拟合。我们可以从模型的参数个数来判断是否是过拟合问题。有个原则是为了避免过拟合。参数的数量要少于数据点的个数。 n次多项式有 n+1 个参数, 比如直线 y=ax+b有两个参数。再如上图有五个点,参数要少于5。用直线最简单,最好。
回归有很多应用,比如典型的根据房屋的地理,大小等条件来预测房屋的价格。通过训练集得到线性模型,也就是多项式,再用这个多项式来预测测试集。所以,如果数据集合和要研究的问题符合线性回归,我们就应该尽量选择简单的多项式来表达这个趋势。