回归模型总结笔记—scikit-learn

大家早安、午安、晚安，上一篇学习了一些常见线性回归算法的核心思想以及简单的编程实现，本文主要是了解一些scikit-learn中的回归模型的主要内容和应用方法，希望对大家有所帮助。正文开始~~

点开sklearn中的Regression部分的内容，震惊了，光线性回归模型就如图1所示的一大片，更别说其他的非线性回归方法了，但是本文还是对应上一篇的内容，只聊聊sklearn中的最小二乘法和岭回归。

图1

一、广义线性模型(Generalized Linear Models)

sklearn中的广义线性模型指的是：通过对输入特征值的线性组合来预测目标值，正如图2所述：

图2

图2中，coef_在某一定程度上表示特征值之间的相关程度；intercept_表示插入的一个值。

1、最小二乘法(Ordinary Least Squares)-对应模型：LinearRegression

这个模型中权重的求解，主要是基于图3中的最优化模型：

图3

class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)

normalize->对数据进行归一化，提升算法的鲁棒性，使用该参数的前提四fit_intercept设置为true，否则无效。

1）标准化(Standardization)与归一化(Normalization)

备注：其实在对特征值的预处理过程中，sklearn提供了不同的处理方法，详情见Preprocessing data，此处只简单介绍简单的几种。

Standardization->对数据进行标准化，通过scale函数将数据转换为标准正态分布数据(N~(0,1))(此函数可以规定处理的轴是axis=0或axis=1，0表示每个特征值下的全部数据处理为标准正太分布，1表示每个样本的特征值做标准正态化处理)。

图4 Z-score标准化方法

此外，还有一些方法，如最大最小值方法，将特征值限定在一定的范围区间内，比如MinMaxScaler、MaxAbsScaler

什么时候进行标准化比较好（来之知乎大牛的解释）：

图5

针对基于距离的分类或者回归算法，需要scale数据，这样那些实际不重要、但是数值比较大的特征值，就不会因为数值大而影响决策

Normalization->主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。p-范数的计算公式：||X||_p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p。该方法主要应用于文本分类和聚类中

具体操作的话，针对每个样本，先求解该样本的p范数，然后让该样本的每个特征值除以该范数.处理后每个样本的p-范数和为1。适宜度量样本的相似性。

关于标准化和归一化，可以参考About Feature Scaling and Normalization

2、岭回归（Ridge Regression）->Ridge

sklearn中岭回归模型和上一篇中提到的岭回归的模型是一样的，就是在最小平方误差的基础上加上对惩罚因子：

图6 岭回归模型

class sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver='auto', random_state=None)

alpha->岭参数，默认是1，数字越大，对应的回归系数越小，趋于稳定；数字越小，回归系数越大，回归系数不稳定。详情见上一篇

举个栗子：存在一组数据，且找到完全符合y=w*x+c的w，利用岭回归模型，设置不同的alpha参数时，对比拟合得到的回归参数coef_和w的平方误差的区别。

1)准备数据

图7

2）设置不同的alpha参数，对比不同alpha对回归效果的影响

图8

3）效果图

图9 不同岭参数alpha对岭回归效果的影响

从上图9可以看到，岭参数会影响回归参数的准确度，当alpha很大后，误差非常大；当alpha很小时，回归参数都很大且基本不变。在alpha的变化中，发现有些回归系数增大，有些减小，表明这些特征值之间存在相关性。发现在alpha=1时，准确性效果还不错。

好哒，先到这里，以后继续深入探索，请见谅。晚安~

最后编辑于：2017.12.06 13:44:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343

回归模型总结笔记—scikit-learn

一、广义线性模型(Generalized Linear Models)

1、最小二乘法(Ordinary Least Squares)-对应模型：LinearRegression

1）标准化(Standardization)与归一化(Normalization)

2、岭回归（Ridge Regression）->Ridge

推荐阅读更多精彩内容