机器学习——线性回归及代码实现

一、基本形式:

给定由 d 个属性描述的实例,其中 x_{i}x 在第 i 个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即:f(x) = w_{1}x_{1}+ w_{2}x_{2}+...+w_{2}x_{2}+b
一般用向量形式写成:f(x) = w^T x+b,其中 w=(w_{1};w_{2};...;w_{d}; )
wb 的值确定之后,模型就可以随之确定。

二、线性回归:

给定数据集 D=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right\},
其中 x_{i}=(x_{i1};x_{i2};...;x_{id}; ),y_{i}\in R.“线性回归”(linear regression)试图以尽可能准确地预测实值输出标记。
线性回归试图学得 f(x_{i})=wx_{i}+b,使得f(x)\cong y_{i}.
而如何确定 wb,关键在于如何衡量 f(x)y 之间的差别。
当均方误差最小化(最小二乘法)时,上述两者之间的差别最小,即可求得线性回归函数。
找到一条直线,使得所有样本到直线上的欧式距离之和最小。
(x^*,b^*)=\mathop{\arg\min}_{(w,b)} \sum_{i=1}^m(f(x_{i})-y_{i})^2=\mathop{\arg\min}_{(w,b)} (y_{i}-wx_{i}-b)^2

分别令上述式子对 wb 的偏导为0,可得到 wb 的最优解为:

w=\frac{\sum_{i=1}^my_{i}(x_{i}-\bar{x} ) }{\sum_{i=1}^mx_{i}^2 -\frac{1}{m} (\sum_{i=1}^mx_{i})^2} ,

b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i}),
其中,\bar{x} = \frac{1}{m}\sum_{i=1}^{m}x_{i}x 的均值。


当然,我们遇见的更一般的情况是数据集中的样本由多个属性描述,此时我们试图学得f(x_{i}) = w^Tx_{i}+b,使得 f(x_{i})\cong y_{i},这种情况称之为多元线性回归。
类似的,可以用最小二乘法来对 wb 进行估计,为方便,将wb 吸收入向量形式 \hat{w} = (w;b),相应地把数据集表示成一个 m \times (d+1) 的矩阵 X,其中每一行对应一个示例,该行的前 d 个元素对应于 d 个属性值,最后一个元素恒置为1,即:

再把标记也写成向量形式 y=(y_{1};y_{2};...;y_{m}),故有:

\hat{w}^*= \mathop{\arg\min}_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w}).
使\hat{w}^*的偏导为0即可求得最优解。具体步骤略。

最终学得的多元线性回归模型为:f(\hat{x_{i}})=\hat{x}_{i}^T(X^TX)^{-1}X^Ty

三、代码实现及例子:

以下为线性模型的 Python 代码实现

import numpy as np
import matplotlib.pyplot as plt
"""
利用 Python 实现线性回归模型
"""
class LinerRegressionModel(object):
    def __init__(self, data):
        self.data = data
        self.x = data[:, 0]
        self.y = data[:, 1]

    def log(self, a, b):
        print("计算出的线性回归函数为:\ny = {:.5f}x + {:.5f}".format(a, b))

    def plt(self, a, b):
        plt.plot(self.x, self.y, 'o', label='data', markersize=10)
        plt.plot(self.x, a * self.x + b, 'r', label='line')
        plt.legend()
        plt.show()

    def least_square_method(self):
        """
        最小二乘法的实现
        """
        def calc_ab(x, y):
            sum_x, sum_y, sum_xy, sum_xx = 0, 0, 0, 0
            n = len(x)
            for i in range(0, n):
                sum_x += x[i]
                sum_y += y[i]
                sum_xy += x[i] * y[i]
                sum_xx += x[i]**2
            a = (sum_xy - (1/n) * (sum_x * sum_y)) / (sum_xx - (1/n) * sum_x**2)
            b = sum_y/n - a * sum_x/n
            return a, b
        a, b = calc_ab(self.x, self.y)
        self.log(a, b)
        self.plt(a, b)


data = np.array([[1, 2.5], [2, 3.3], [2.5, 3.8],[3, 4.5], [4, 5.7], [5, 6]])
model = LinerRegressionModel(data)
model.least_square_method()

最终输出结果为:



sklearn 中也带有线性回归的代码模块。

sklearn.linear_model中的LinearRegression可实现线性回归
• LinearRegression 的构造方法:
• LinearRegression(
fit_intercept=True, #默认值为 True,表示 计算随机变量,False 表示不计算随机变量
normalize=False, #默认值为 False,表示在回归前是否对回归因子X进行归一化True 表示是 ,
copy_X=True
)

LinearRegression 的常用方法有:
• decision_function(X) #返回 X 的预测值 y
• fit(X,y[,n_jobs]) #拟合模型
• get_params([deep]) #获取 LinearRegression 构造方法的参数信息
• predict(X) #求预测值 #同 decision_function

例子:波士顿房价的线性关系。

from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt

"""
线性回归
"""
# 1.获取数据
boston = load_boston()  # 获取波士顿房价的数据
x = boston.data[:, 5:6]  # 取数据第五列为 x 的值
y = boston.target  # 取 y 值

# 2.训练模型
model2 = LinearRegression().fit(x, y)

# 3.模型预测
pre = model2.predict(x)

# 4.绘制结果
plt.scatter(x, y, color='red')
plt.plot(x, pre)
plt.show()
plt.close()

输出结果为:


菜鸡!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容