这篇文章介绍下简单线性回归的理解。
还是用一个例子来说明。不像在中国,在美国旅游我们会知道,凡是有人为你服务,我们都需要有一定小费的支出,小费的支出比例10%-20%不等。假设小A留学生在一家餐厅打工,他在每服务一桌客户后都会受到一笔小费,他对小费金额做了记录,如下图所示,遗憾的是他没有对每桌客户的消费金额做记录。
而此时,小A希望能够对他下一桌收到的消费做一个预测。然而,当前能够参考的数据少的可怜,仅仅有一个消费金额的数据。于是此时最佳的预测值就是根据以往的小费金额的平均值,我们将这根平均线定义为最佳拟合线(Best-fit line)
然而,这根最佳拟合线和历史数据对比起来是否很理想呢?我们可以进行一个简单的计算,最佳拟合线的第一笔小费的预测值和第一小费实际值差异为-5,第二笔为7。那么将历史数据的所有差异进行加总,为了避免负值抵消正值的效果,我们进行平方后加总。得到:(5-10)^2+(17-10)^2+.......=120。
这里面我们给到一个定义,将120称为线性回归中的残差,英文讲sum of squares of residuals,简写SSE。
简单线性回归的最终目标是找到一条最佳拟合线(Best-fit line)能够让我们的SEE变得最小。
假设小A从店长那里找到了以往的消费记录,得到了新的散点图信息。
这时,小A开始从平均位置开始移动线,从而寻找能够使得SSE最小的那根线,直到移动至下图中第二张图中状态。
这样小A就找到在有消费金额和小费两个信息下的最佳拟合线,也就实现了简单的线性回归。
当然上述描述中这样无数次的移动曲线看起来太没有效率,统计学家们用了数学计算的方式得到该线的位置,计算的方法就叫做最小二乘法。