python机器学习（五）回归算法-线性回归

线性回归

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/pythonml-pythonml5/

一、线性回归的概念

1.1、定义

线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。

优点：
结果易于理解，计算不复杂。

缺点：
对非线性的数据拟合不好。

适用数据类型：
数值型和标称型。

1.2、分类

一元线性回归：
涉及到的变量只有一个。

多元线性回归：
涉及到的变量两个或两个以上。

1.3、公式

image.png

其中𝑤,𝑥为矩阵：

𝑤,𝑥为矩阵

二、线性回归的实例

2.1、单变量实例

房子价格与房子面积

单变量实例

2.2、多变量实例

期末成绩：0.7×考试成绩+0.3×平时成绩
西瓜好坏：0.2×色泽+0.5×根蒂+0.3×敲声

多变量实例

三、损失函数

损失函数是一个贯穿整个机器学习重要的一个概念，大部分机器学习算法都会有误差，我们得通过显性的公式来描述这个误差，并且将这个误差优化到最小值。

3.1、损失原因

预测结果与真实值是有一定的误差。

损失函数

3.2、损失函数定义

损失函数代表了误差的大小，用公式表示如下：

损失函数公式

又称最小二乘法。

对于线性回归模型，将模型与数据点之间的距离差之和做为衡量匹配好坏的标准，误差越小,匹配程度越大。我们要找的模型就是需要将f(x)和我们的真实值之间最相似的状态。

损失函数由W决定，那么如何去求模型当中的W，使得损失最小？（目的是找到最小损失对应的W值）

减少损失函数

3.3、减小损失函数的2种方式

方式一：最小二乘法之正规方程

求解：

最小二乘法之正规方程

𝑋为特征值矩阵，𝑦为目标值矩阵。

损失函数直观图

缺点：当特征过于复杂，求解速度太慢。
对于复杂的算法，不能使用正规方程求解(逻辑回归等)

方式二：最小二乘法之梯度下降

image.png

𝛼为学习速率，需要手动指定，其中

方向

表示方向
理解：沿着这个函数下降的方向找，最后就能找到山谷的最低点，然后
更新W值

最小二乘法之梯度下降

3.4、两种方式对比：

两种方式对比

四、线性回归API

4.1、普通最小二乘法线性回归

sklearn.linear_model.LinearRegression()
coef_：回归系数

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
# 方法
reg.fit(X,y,sample_weight = None)  #使用X作为训练数据拟合模型，y作为X的类别值。X，y为数组或者矩阵

reg.predict([[X,y]])  # 预测提供的数据对应的结果
 
#属性
reg.coef_   #表示回归系数w=(w1,w2....)

4.2、通过使用SGD最小线性模型

sklearn.linear_model.SGDRegressor( )
coef_：回归系数

4.3、带有正则化的线性回归

sklearn.linear_model.Ridge
具有l2正则化的线性最小二乘法
alpha:正则化力度
coef_:回归系数

五、实现案例

波士顿房价数据分析流程:

5.1、数据获取

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression, SGDRegressor,  Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np
# 获取数据
lb = load_boston()

5.2、数据分割

# 分割数据集到训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)

5.3、训练与测试数据标准化处理

# 特征值和目标值是都必须进行标准化处理, 实例化两个标准化API
std_x = StandardScaler()

x_train = std_x.fit_transform(x_train)
x_test = std_x.transform(x_test)

# 目标值
std_y = StandardScaler()

y_train = std_y.fit_transform(y_train)
y_test = std_y.transform(y_test)

5.4、线性回归模型和梯度下降估计对房价进行预测

# 正规方程求解方式预测结果
lr = LinearRegression()
lr.fit(x_train, y_train)
print(lr.coef_)
保存训练好的模型
joblib.dump(lr, "test.pkl")
# 预测测试集的房子价格
y_lr_predict = std_y.inverse_transform(lr.predict(x_test))
print("正规方程测试集里面每个房子的预测价格：", y_lr_predict)
print("正规方程的均方误差：", mean_squared_error(std_y.inverse_transform(y_test), y_lr_predict))

# 梯度下降进行房价预测
sgd = SGDRegressor()
sgd.fit(x_train, y_train)
print(sgd.coef_)
# 预测测试集的房子价格
y_sgd_predict = std_y.inverse_transform(sgd.predict(x_test))
print("梯度下降测试集里面每个房子的预测价格：", y_sgd_predict)
print("梯度下降的均方误差：", mean_squared_error(std_y.inverse_transform(y_test), y_sgd_predict))

# 岭回归进行房价预测
rd = Ridge(alpha=1.0)
rd.fit(x_train, y_train)
print(rd.coef_)
# 预测测试集的房子价格
y_rd_predict = std_y.inverse_transform(rd.predict(x_test))
print("梯度下降测试集里面每个房子的预测价格：", y_rd_predict)
print("梯度下降的均方误差：", mean_squared_error(std_y.inverse_transform(y_test), y_rd_predict))

六、回归的性能评估

6.1、均方差误差评估机制（MSE）：

均方差误差评估机制

注：𝑦^𝑖为预测值，¯𝑦为真实值。

6.2、回归评估API：

sklearn.metrics.mean_squared_error
mean_squared_error(y_true, y_pred)
均方误差回归损失
y_true:真实值
y_pred:预测值
return:浮点数结果

注：真实值，预测值为标准化之前的值。

七、线性回归的可能问题

训练数据训练的很好啊，误差也不大，为什么在测试集上面有问题呢？机器学习可能存在过拟合和欠拟合的问题。如下图：

过拟合和欠拟合

7.1、过拟合

一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)，如下图：

过拟合

产生原因：

原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点。

解决办法：

进行特征选择，消除关联性大的特征（很难做）
交叉验证（建议使用）
正则化（了解即可）

7.2、欠拟合

一个假设在训练数据上不能获得更好的拟合，但是在训练数据外的数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)。如下图：

欠拟合

产生原因：

学习到数据的特征过少。

解决办法：

增加数据的特征数量。

最后编辑于：2020.04.03 14:59:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

python机器学习（五）回归算法-线性回归

一、线性回归的概念

1.1、定义

1.2、分类

1.3、公式

二、线性回归的实例

2.1、单变量实例

2.2、多变量实例

三、损失函数

3.1、损失原因

3.2、损失函数定义

3.3、减小损失函数的2种方式

方式一：最小二乘法之正规方程

方式二：最小二乘法之梯度下降

3.4、两种方式对比：

四、线性回归API

4.1、普通最小二乘法线性回归

4.2、通过使用SGD最小线性模型

4.3、带有正则化的线性回归

五、实现案例

波士顿房价数据分析流程:

5.1、数据获取

5.2、数据分割

5.3、训练与测试数据标准化处理

5.4、线性回归模型和梯度下降估计对房价进行预测

六、回归的性能评估

6.1、均方差误差评估机制 （MSE）：

6.2、回归评估API：

七、线性回归的可能问题

7.1、过拟合

产生原因：

解决办法：

7.2、欠拟合

产生原因：

解决办法：

推荐阅读更多精彩内容

6.1、均方差误差评估机制（MSE）：