机器学习入门(五):线性回归—从模型函数到目标函数

从数据反推公式

假设我们获得了这样一张表格,上面列举了美国纽约若干程序员职位的年薪:

enter image description here

大家可以看到,表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项,其他都是一样的。不同的经验(工作年限),薪水不同。而且看起来,工作年头越多,工资也就越高。

那么我们把 Experience 与 Salary 抽取出来,用 x 和 y 来分别指代它们。

enter image description here

它们是不是成正比的呢?y 与 x 没有比例关系,y 直接除以 x 肯定不行。

那么,是不是有可能是 y = a + bx 这样的线性相关关系呢?

我们可以先在二维坐标系里通过画图来看一下 x 与 y 的关系:

enter image description here

当我们用6个点在坐标系里标注出工作年限从0到5的工资收入后,发现:把这6个点连起来,基本上就成了一条直线。那么假设存在 y = a + bx,是合理的。

既然是条直线,又有现成的 x = 0 的情况 103100 = a + b * 0,我们可以直接得出 a = 103100,带入 104900 = 103100 + b 得出 b =1800。

将 a 和 b 的值带入 x = 2、3、4、5 几项,发现结果与真实值都不完全一样,但真实值和预测值差别不大,只有1%~2%的差距。

那么我们将 x = 6 带入 y = 103100 + 1800 * x,得出 y = 113900,虽然和实际的114200并不完全一样,但差距也不到3%。

综合利用训练数据,拟合线性回归函数

enter image description here

上面获得 a、b 两个参数取值的方法很直接,不过并不具备通用性,原因在于:

  1. 不是所有的数据都会提供 x = 0 的情况,让我们直接得到 a 的取值;
  2. 获取 a 和 b 各自只用到一个数据,这样做带有很大的偶然性,不仅浪费了多个数据综合求取参数的机会,而且,很可能无法得到真正合理的结果。

既然我们认为 x 和 y 满足线性相关关系,那么线性函数: y = a + bx,就是我们的模型函数。其中 y 也可以用 f(x) 来表示。

我们要做的是综合利用所有的训练数据(工作年限从0-5的部分)求出 y = a + bx 中常数 a 和 b 的值。

线性回归的目标函数

综合利用的原则是什么呢?就是我们要求的这个 a 和 b,在将训练样本的 x 逐个带入后,得出的预测年薪 y’ = a + bx 与真实年薪 y 整体的差异最小。

具体的一个样本的 y 和 y’ 的差异用 (y′−y)2 来表示。

怎么衡量这个整体差距呢?我们用下面这个公式,我们把它叫做为 Cost Function,形式如下(其中 m 为样本的个数,在本例中 m 取值为6):

J(a,b)=12m∑mi=1(y′(i)−y(i))2=12m∑mi=1(a+bx(i)−y(i))2

在 y = a + bx 这个模型函数中,a 和 b 是常量参数,x 是自变量,而 y 是因变量。

但到了 J(a,b) 中,x(i) 和 y(i) 是常量参数(也就是 m 个样本各自的 x 和 y 值),而 a 和 b 成了自变量,J(a,b) 是因变量。能够让因变量 J(a, b) 取值最小的自变量 a 和 b,就是最好的 a 和 b。

我们要做的,就是找到最好的 a 和 b。

但是,在讲求解 a,b 之前,我们先要特别强调一个概念——线性。

线性=直线?

线性概念的混淆

为什么要说线性呢?

因为,很多人简单认为“线性回归模型假设输入数据和预测结果遵循一条直线的关系”。

确实,从上面那个例子来看,x 和 y 的关系的确是拟合成了一条直线(参见下图):

enter image description here

而且,在上例中,我们最开始的假设是 y = a + bx ——大家回顾一下初中数学,在我们刚学坐标系的时候,最早学的就是如何在直角坐标系里构造一条直线:y = a + bx。

所以,难怪会有同学把线性回归理解成自变量(特征 x)和因变量(结果 y)的关系是一条直线。

但是,这种理解是一叶障目

线性的含义

线性回归模型是:利用线性函数对一个或多个自变量 (x 或 (x1,x2,...xk))和因变量(y)之间的关系进行拟合的模型。

也就是说,线性回归模型构建成功后,这个模型表现为线性函数的形式。

线性函数的定义是:一阶(或更低阶)多项式,或零多项式。

当线性函数只有一个自变量时,y = f(x)。

f(x) 的函数形式是:

f(x) = a + bx (a、b 为常数,且 b≠0)—— 一阶多项式

或者 f(x) = c (c 为常数,且 c≠0) —— 零阶多项式

或者 f(x) = 0 —— 零多项式

但如果有多个独立自变量,y=f(x1,x2,...,xk) 的函数形式则是:

f(x1,x2,...,xk)=a+b1x1+b2x2+...+bkxk

也就是说,只有当训练数据集的特征是一维的时候,线性回归模型可以在直角坐标系中展示,其形式是一条直线。

换言之,直角坐标系中,除了平行于 y 轴的那些直线之外,所有的直线都可以对应一个一维特征(自变量)的线性回归模型(一元多项式函数)。

但如果样本特征本身是多维的,则最终的线性模型函数是一个多维空间内的[一阶|零阶|零]多项式。

总结一下:特征是一维的,线性模型在二维空间构成一条直线;特征是二维的,线性模型在三维空间中构成一个平面;若特征是三维的,则最终模型在四维空间中构成一个体,以此类推。

enter image description here

用线性回归模型拟合非线性关系

在输入特征只有一个的情况下,是不是只能在二维空间拟合直线呢?其实也不一定。

线性模型并非完全不可能拟合自变量和因变量之间的非线性关系——听着有点矛盾啊,其实这是一个操作问题。

比如,有一些样本,只有一个特征,我们把特征和结果作图以后发现,是这个样子的:

enter image description here

这些样本特征和结果关系的走势,根本不是直线嘛。看起来还挺像二阶曲线的。

这个时候,我们完全可以把特征从一个“变成”两个:

设 X=(x1,x2)(其中 x1=x2;x2=x),有:

f(x1,x2)=a+b1x2+b2x=a+b1x1+b2x2

这就相当于拟合了一条二阶多项式对应的曲线。

再设 B=(b1,b2),则:

f(X)=a+BX

这样一来,我们只需要在二维向量空间里训练 f(X)=a+BX,就可以了。

当然,这种操作也不限于在一维到二维之间的转换,一维也可以转为三维、四维、n 维;或者原本的 k 维也可以每一维都求平方后作为新特征引入,转为 2k 维,如此种种……依需要而取就好。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容