Python机器学习（二）：线性回归算法

Jacob的 Python机器学习系列：
Python机器学习（一）：kNN算法
 Python机器学习（二）：线性回归算法
 Python机器学习（三）：梯度下降法
 Python机器学习（四）：PCA 主成分分析
 Python机器学习（五）：SVM 支撑向量机

机器学习研究的问题分为分类问题和回归问题。分类问题很好理解，而回归问题就是找到一条曲线，可以最大程度地拟合样本特征和样本输出标记之间的关系。当给算法一个输入时，这条曲线可以计算出相应可能的输出。回归算法最简单的就是线性回归。当样本特征只有一个时，称为简单线性回归；当样本特征有多个时，称为多元线性回归。

线性回归

1.简单线性回归

由上图可知，简单线性回归只有一个特征x，一个标记y。假定x和y之间具有类似于线性的关系，就可以使用使用简单线性回归算法。假定我们找到了最佳拟合的直线方程

最佳拟合的直线方程

则对于每一个样本点x(i)，预测值如下。其中带箭头的y是预测值，称为 y head。右上角的 i 是指样本的索引。

预测值

我们希望预测值和真实值之间的差距尽量小。一般用欧氏距离来衡量。下式称为损失函数（Loss Function）

损失函数

换句话说，我们的目标就是找到一组a和b，使得下式最小

y(i)和x(i)是固定的

通过分析不同的问题，我们需要确定问题的损失函数。通过最优化损失函数，获得机器学习的模型。几乎所有的参数学习算法都是这样的套路

那么这个问题是一个典型的最小二乘法问题，即最小化误差的平方。推导可得以下公式

最小二乘法

可以用python封装成这种形式

"""
Created by 杨帮杰 on 10/1/18
Right to use this code in any way you want without
warranty, support or any guarantee of it working
E-mail: yangbangjie1998@qq.com
Association: SCAU 华南农业大学
"""

import numpy as np

class SimpleLinearRegression:

    def __init__(self):
        """初始化Simple Linear Regression 模型"""
        self.a_ = None
        self.b_ = None

    def fit(self, x_train, y_train):
        """根据训练数据集x_train,y_train训练Simple Linear Regression 模型"""
        assert x_train.nidm == 1, \
            "Simple Linear Regressor can only solve single feature training data."
        assert len(x_train) == len(y_train), \
            "the size of x_train must be equal to the size of y_train"

        x_mean = np.mean(x_train)
        y_mean = np.mean(y_train)

        """进行向量化可以加快训练速度"""
        # num = 0.0
        # d = 0.0
        # for x, y in zip(x_train, y_train):
        #     num += (x - x_mean) * (y - y_mean)
        #     d += (x - x_mean) ** 2

        num = (x_train - x_mean).dot(y_train - y_mean)
        d = (x_train - x_mean).dot(x_train - x_mean)

        self.a_ = num/d
        self.b_ = y_mean - self.a_ * x_mean

        return self

    def predict(self, x_predict):
        """给定待预测数据集x_predict, 返回表示x_predict的结果向量"""
        assert x_predict.ndim == 1, \
            "Simeple Linear Regressor can only solve single feature training data."
        assert self.a_ is not None and self.b_ is not None, \
            "must fit before predict!"

        return np.array([self._predict(x) for x in x_predict])

    def _predict(self, x_single):
        """给定单个待预测数据x_single, 返回x_single的预测结果值"""
        return self.a_ * x_single + self.b_

    def __repr__(self):
        return "SimpleLinearRegression()"

衡量线性回归模型好坏有多个标准，均方误差（Mean Squared Error）、均方根误差（Root Mean Squared Error）、平均绝对误差（Mean Absolute Error）等。一般使用MSE。

均方误差MSE

均方根误差RMSE

平均绝对误差MAE

而如果想像分类问题一样将评判得分限制在0和1之间，则应该使用R Square

R Square

右边一项的分子代表使用模型产生的错误，分母代表使用平均值进行预测产生的错误。分母也可以理解为一个模型，称为Baseline Model。

R Square的输出分为以下几种情况：

R^2 = 1，则模型不犯任何错误，完美
R^2 = 0，模型为基准模型，相当于没训练过
R^2 < 0，数据可能不存在任何线性关系

2.多元线性回归

多元线性回归,就是指样本特征值有多个。根据这多个特征值来预测样本的标记值。那么特征X和参数Θ就是一个向量。

多元线性回归

相类似地，我们需要找到一个损失函数。我们需要找到一组参数Θ，使下式尽可能小

损失函数

预测值有n个参数

为了方便进行矩阵运算，我们写成这种形式

X0不是特征输入！

预测值可以写成这种形式

预测值和参数是n维向量，X是n维矩阵

X展开是这个样子。每一行是一个样本点，每一列（除了第一列）是一种特征

展开

经过推导，得到这样一个公式。这成为多元线性回归的正规方程解（Normal Equation）。结果就是参数向量。

我也不知道怎么来的

Θ0就是简单线性回归中的b

如上，可以封装成这种形式

"""
Created by 杨帮杰 on 10/1/18
Right to use this code in any way you want without
warranty, support or any guarantee of it working
E-mail: yangbangjie1998@qq.com
Association: SCAU 华南农业大学
"""

import numpy as np

class LinearRegression:

    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None
        self.interception_ = None
        self._theta = None

    def fit_normal(self, X_train, y_train):
        """根据训练数据集X_train, y_train训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)

        self.interception_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def predict(self, X_predict):
        """给定待预测数据集X_predict, 返回表示X_predict的结果向量"""
        assert self.interception_ is not None and self.coef_ is not None, \
            "must fit before predict!"
        assert X_predict.shape[1] == len(self.coef_), \
            "the feature number of X_predict must be equal to X_train"

        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])

        return X_b.dot(self._theta)

    def __repr__(self):
        return "LinearRegression()"

sciki-learn中使用线性回归如下

"""
Created by 杨帮杰 on 10/1/18
Right to use this code in any way you want without
warranty, support or any guarantee of it working
E-mail: yangbangjie1998@qq.com
Association: SCAU 华南农业大学
"""

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 加载波士顿房价的数据集
boston = datasets.load_boston()

# 清除一些不合理的数据
X = boston.data
y = boston.target

X = X[y < 50.0]
y = y[y < 50.0]

# 分离出测试集并拟合
X_train, X_test, y_train, y_test = train_test_split(X, y)

lin_reg = LinearRegression()

lin_reg.fit(X_train, y_train)

# 打印结果
print(lin_reg.coef_)
print(lin_reg.intercept_)
print(lin_reg.score(X_test, y_test))

输出如下

打印结果

3.总结

线性回归是许多其他回归和分类问题的基础。

它最大的优点是对数据具有很强的解释性。比如某一项的参数是正数，那么很可能这个特征和样本标记之间成正相关，反之成负相关。

优点：

思想简单，实现容易
是许多非线性模型的基础
具有很好的可解释性

缺点：

假设特征和标记之间有线性关系，现实中不一定
训练的时间复杂度比较高

References:
Python3 入门机器学习经典算法与应用 —— liuyubobobo
机器学习实战 —— Peter Harrington

最后编辑于：2019.03.08 11:40:10

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

Python机器学习（二）：线性回归算法

1.简单线性回归

2.多元线性回归

3.总结

推荐阅读更多精彩内容