1.数据集的导入以及自变量和因变量的选取
作为机器学习的入门知识点和模型,网上有很多sklearn库实现线性回归的例子。不过在这里我会从最开始的模型训练到最后的模型调优,统一地进行一个练习,以便对线性回归有个更深入浅出的理解。
首先我们先导入一些相关的包:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_predict, train_test_split
from sklearn import datasets
%matplotlib inline
mpl.rcParams['font.family'] = ['sans-serif']
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus']=False
作为回归模型练习的数据集,就从经典的波士顿房价数据集来进行训练就好,这也是sklearn库中自带的小数据集。在这里,作为自变量X的就是数据集中的feature_names维度,总共有13个维度,所以这是一个多元线性回归模型;因变量y就是我们数据集中的target维度——房价。
data = datasets.load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
target = pd.DataFrame(data.target, columns=['MEDV'])
X = df
y = target
2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=1)
print(X_train.shape)
print(X_test.shape)
可以看到由于参数test_size是0.5,所以训练集和测试集对半分,维度都是13.
3.模型的训练
划分好训练集和测试集后,就是对模型进行训练了,然后我们输出截距和权重系数,看下模型
lr = LinearRegression()
lr.fit(X_train, y_train)
print(lr.coef_)
print(lr.intercept_)
因此,波士顿房价的多元线性模型就此诞生,下面就要评估下这两个系数拟合的模型能否相对准确地预测出因变量y——房价了。
4.模型的评估
对于多元线性回归模型的评估,主要有四种指标,这里我选用了RMSE——均方差根,数值越小说明模型拟合度越高
y_pred = lr.predict(X_test)
from sklearn import metrics
MSE = metrics.mean_squared_error(y_test, y_pred)
RMSE = np.sqrt(metrics.mean_squared_error(y_test, y_pred))
print('MSE:',MSE)
print('RMSE:',RMSE)
图中可以看到RMSE有4.779,说明拟合度还不够高,我们通过可视化来看一下训练后的预测和真实值之间的差异:
plt.figure(figsize=(15,5))
plt.plot(range(len(y_test)), y_test, 'r', label='测试数据')
plt.plot(range(len(y_test)), y_pred, 'b', label='预测数据')
plt.legend()
可以看到许多地方,红线会明显超出蓝线,说明的确,我们的模型拟合度不够,再换个散点图来更直观地看一下:
plt.scatter(y_test, y_pred)
plt.plot([y_test.min(),y_test.max()], [y_test.min(),y_test.max()], 'k--')
plt.xlabel('真实值')
plt.ylabel('预测值')
图中我们可以看到,如果完全拟合,散点应该和直线相重合,这里发现,y_test=50的地方,有较多的异常值,而线性回归模型的一大缺点就是对异常值很敏感,会极大影响模型的准确性,因此,下一步,我们就根据这一点,对模型进行优化
5.模型调优
# 去除MEDV=50的异常值
drop_index = y[y['MEDV']==50].index.values
X = X.drop(drop_index)
y = y.drop(drop_index)
# 这里划分训练集和测试集的参数random_state都是1,表示随机分配的数据是同一组
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1)
# 对训练集进行训练
lr = LinearRegression()
lr.fit(X_train, y_train)
# 对测试集进行预测
y_pred = lr.predict(X_test)
RMSE = np.sqrt(metrics.mean_squared_error(y_test, y_pred))
print('RMSE:',RMSE)
可以看到,该模型的RMSE变成了3.573,大大提高了模型的准确率。这里我对回归模型的调优主要是两个方面:1. 增加了训练集的数量,提高训练准确度;2. 去除异常值,提高准确度。
plt.scatter(y_test, y_pred)
plt.plot([y_test.min(),y_test.max()], [y_test.min(),y_test.max()], 'k--')
plt.xlabel('真实值')
plt.ylabel('预测值')
总结:
线性回归模型的评估可以根据RMSE来判断;调优模型主要通过放大训练集数量以及排除异常值来进行;LinearRegression本身的参数只有四个,大多数情况下也不需要进行参数调整,默认的就OK。