机器学习算法学习-普通线性回归、岭回归与lasso回归

1.算法

1.1从最简单的普通线性回归谈起

Q:已知一维特征空间中的一系列样本点{(xi, yi), i = 1,2,3...n},注意这里是一维特征空间,虽然可以在二维平面上画出来,在学习机器学习的时候,一定要跳脱出笛卡尔空间坐标系的束缚。我们希望找到一个一次函数y=ax来描述这一组样本点的模型,如何求a呢?

推广到k维特征空间就是{(Xi, yi), i = 1,2,3...n, Xi = (xi1, xi2...xik)},我们希望找到一个函数y = XW,其中W就是我们要求的系数阵。

一个常用的方法就是找出使误差最小的W。这里的误差是指预测Y值和真实Y值之间的差值,使用该误差的简单累加将使得正差值和负差值相互抵消,所以我 们采用平方误差。

平方误差可以写做:

该公式非常重要,是普通线性回归的损失函数,对W求导,当导数为零时,平方误差最小,此时W等于:


这两个公式都非常好理解,直接将我们已知的Xy代入求解即可

但思考这样一个问题:如果数据的特征比样本点还多应该怎么办?输入数据的矩阵X不是满秩矩阵。非满秩矩阵在求逆时会出现问题,即(X^TX)不可逆时,或者\vert X^TX  \vert 趋近于0,会使得回归系数趋向于无穷大,此时得到的回归系数是无意义的。解决这类问题可以使用岭回归和LASSO回归,主要针对自变量之间存在多重共线性或者自变量个数多于样本量的情况。

1.2 岭回归和lasso回归

这部分内容可以参考https://blog.csdn.net/weixin_43374551/article/details/83688913,讲的非常清楚。

概括来说,岭回归和lasso回归都是在线性回归的损失函数上加了一个正则化的惩罚项,只不过岭回归加的是L2范数(一个平方项),而lasso回归加的是L1范数(一个绝对值项)。

L2范数惩罚项的加入使得(X^TX + \lambda I)满秩,保证了可逆,但是也由于惩罚项的加入,使得待求解回归系数矩阵的估计不再是无偏估计。所以岭回归是以放弃无偏性、降低精度为代价解决病态矩阵问题的回归方法。也就是增加了偏差,来减小方差。

单位矩阵I的对角线上全是1,像一条山岭一样,这也是岭回归名称的由来。

1.3 降维

岭回归不能降维,但lasso回归可以,具体也请参考上面那篇博文,里面有这样一个公式:

这可能不太好理解,我们可以从拉格朗日乘子的角度来理解,事实上我们还是求平方误差函数的最小值,只不过给待求解的\beta 加上了一个限制条件,由上面的不等式,根据拉格朗日乘子和KKT条件求解,岭回归的损失函数:

拉格朗日乘子与KKT条件如何理解请参考这个链接,看完之后关于这篇博文的知识都能理解了:https://www.zhihu.com/question/38586401

这个\lambda 参数如何设定大小是非常重要的,通常我们是用网格法,如果是Python的话有自带的CV,通常\lambda 的大小在0.01左右。


Lasso回归使得一些系数变小,甚至还是一些绝对值较小的系数直接变为0,因此特别适用于参数数目缩减与参数的选择,因而用来估计稀疏参数的线性模型。

但是Lasso回归有一个很大的问题,导致我们需要把它单独拎出来讲,就是它的损失函数不是连续可导的,由于L1范数用的是绝对值之和,导致损失函数有不可导的点。也就是说,我们的最小二乘法,梯度下降法,牛顿法与拟牛顿法对它统统失效了。此时我们可以通过坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression, LARS)来求有这个L1范数的损失函数极小值。

使用坐标轴下降法和最小角回归法进行求解的过程可以参考这个网址:https://www.cnblogs.com/pinard/p/6018889.html

1.4总结

1.普通线性回归的损失函数是什么?一般求解方法可以使用梯度下降法和最小二乘法

2.岭回归与lasso回归主要针对自变量之间存在多重共线性或者自变量个数多于样本量的情况。

3.岭回归不能降维,但lasso回归可以

4.lasso回归求解可以使用坐标轴下降法和最小角回归

2. 相关链接

拉格朗日乘子

https://www.zhihu.com/question/38586401

机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理)

https://blog.csdn.net/weixin_43374551/article/details/83688913

线性回归、lasso回归、岭回归以及弹性网络的系统解释

https://blog.csdn.net/liuzhiwei_Sta/article/details/103409777?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.withoutpai&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.withoutpai

坐标轴下降法和最小角回归法进行求解的过程可以参考这个网址:https://www.cnblogs.com/pinard/p/6018889.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342

推荐阅读更多精彩内容