- 通过大量小练习,直观学习:
- 判断连续与离散分布
- 简单的回归方程,斜率
slope
和截距intercept
的概念
- 使用回归方程进行预测
- 使用
sklearn
进行回归分析
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(ages_train, net_worths_train)
km_net_worth = reg.predict([[27]])[0][0]
### get the slope
slope = reg.coef_[0][0]
### get the intercept
intercept = reg.intercept_[0]
### get the score on test data
test_score = reg.score(ages_test, net_worths_test)
- 线性回归的误差
error
:真实值与预测值之差
- 最佳回归:
- 方差最小的回归,或最小化SSE(Sum of Squared Errors)
- 获得最佳回归的方法:最小二乘法和梯度下降
Minimizing the Sun of Squared Errors
- 当数据集增大是,SSE可能随之增大,因此在一个小的数据集上使用线性回归时,其SSE可能可能更小。
- 使用
R²
来评估线性回归模型质量,可规避上一问题。
-
R²
理解:有多少输出的改变能用输入的改变来解释;
- 取值通常在0到1之间;
- 其优点在于与数据集的大小无关
- 在
sklearn
中使用R²
,即前文代码最后一行的.score()
- 使用
matplotlib
图形化回归结果
import matplotlib.pyplot as plt
plt.scatter()
plt.plot()
plt.xlabel()
plt.ylabel()
plt.show()
- 比较分类和回归
- 多元回归简介
- 回归迷你项目