一、定义
1、一元线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
2、多元线性回归
一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。 设y为因变量X1,X2…Xk为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:Y=b0+b1x1+…+bkxk+e
其中,b0为常数项,b1,b2…bk为回归系数,b1为X1,X2…Xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为X1,X2…Xk固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:Y=b0+b1x1+b2x2+e
线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在桥回归中最小化最小二乘损失函数的惩罚.相反,最小二乘逼近可以用来拟合那些非线性的模型.因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。
二、算法原理
我们最常使用最小二乘法去进行线性回归预测,对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时,偏差先平方,所以正负值没有抵消,和方差一样。如下图各个颜色的直线就是每个数据点到线的垂直偏差。
实际上,当a和b在某一特定数字时,损失函数会是最小的,此时的a和b即为最佳的拟合解。
如果有讲的不好的地方,不怕还有动画传送门,大家可以看看。
三、优缺点
1、优点
(1)思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效
(2)是许多强大的非线性模型的基础
(3)线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析
(4)蕴含机器学习中的很多重要思想
(5)能解决回归问题
2、缺点
(1)线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值
(2)对于非线性数据或者数据特征间具有相关性多项式回归难以建模,难以很好地表达高度复杂的数据