线性回归是机器学习中最基础的算法,它研究的是样本目标和特征变量之间是否存在线性关系。
现在我们有506条有关波士顿房子的综合数据,包括房子的价格、房子所在区的犯罪率、黑人比例、高速公路条数等。每条数据就是一个样本,房价就是目标变量,其他数据可看作特征变量。
线性回归的步骤:
1,建立模型:确定目标和特征变量,建立方程
其中Y代表目标(因变量),X为特征(自变量),W为需要计算的参数。数学符号便利性:将Y=W*X+b中的b去掉,X中增加一个值为1的特征变量
2,求解模型:正规方程法或者最小梯度法求解目标函数
的最小值。
3,模型评估:计算决定系数。其计算公式为:
下面给出求解上述式子最小值的2种推导方法:正规方程和梯度下降。
实例:波士顿房价预测
下面给出线性回归模型,预测值和真实值的对比图,其中模型的决定系数位0.7576,说明线性关系可以解释房价的75.76%。
源码下载,扫描关注微信订阅号pythonfan, 获取更多实例和代码。