线性模型

什么是线性模型? The target value is expected to be a linear combination of the features.
\hat{y}(w,x)=w_0+w_1x_1+...+w_px_p
特征不仅要线性组合,还必须是目标值等于线性组合的特征!机器学习中绝大部分特征都是线性组合,但目标值不一定等于线性组合的特征。
在任何时候,当看到线性二字指的就是加减乘除运算,非线性指的是n次方(n>1)、开方、取对数等。
sklearn中,coef_=w=(w_1,...,w_p),intercept_=w_0

一、普通最小二乘回归(Ordinary Least Squares)

线性回归 = 最小二乘回归 = 普通最小二乘回归

什么是线性回归?
线性回归就是找到一组w=(w_1,...,w_n)使得观测目标值y和预测目标值\hat{y}之间的残差平方和最小!即\min \limits_{w}||Xw-y||_2^2

注意:
矩阵大写,向量小写。X是(n_samples,p_features)的矩阵;w是(p_features,1)的列向量;y是(n_samples,1)的列向量。
当说系数(coefficient )指的是w=(w_1,...,w_p)不包括w_0w_0的引入给所有样本增加了值为1的列,即x_0=1

线性回归的假设前提:线性回归的系数估计需要各特征之间是互相独立的。
多重共线性(Multicollinearity)是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估计失真或难以估计准确的一种特性,多重是指一个自变量可能与多个其他自变量之间存在相关关系。如一件商品的销售数量可能与当地的人均收入和当地人口数这两个其他因素存在相关关系。在研究社会、经济问题时,因为问题本身的复杂性,设计的因素很多。在建立回归模型时,往往由于研究者认识水平的局限性,很难在众多因素中找到一组互不相关,又对因变量 y 产生主要影响的变量,不可避免地出现所选自变量出现多重相关关系的情形。

多重共线性对线性回归模型的影响?
1、会造成回归系数,截距系数的估计非常不稳定(即高方差),即整个模型是不稳定。
这种不稳定的具体表现是:很可能回归系数原来正,但因为共线性而变为负。这对于一些自变量的可解释性来讲可能是致命的,因为得到错误系数无法解释正常发生的现象。举个简单的例子说明下:比如我有一个二元线性回归模型,自变量是x1和x2,如果我们画图大家可以很自然的想象出一个三维(三轴)坐标系。假如x1和x2之间没有多重共线性,那么这个模型就是一个确定了的超平面。但假如x1和x2有很强的多重共线性,那么这个模型就近似是一个直线向量,而以这个直线所拟合出来的平面是无数个的(穿过一条直线的平面是不固定的)。这也就造成了回归系数的不确定性,以及模型无法稳定。

2、增加模型解释难度;
如果特征之间存在多重共线性(multicollinearity),会使矩阵X变得近似奇异,X近似奇异意味着X的行列式|X|近似为0;进而\min \limits_{w}||Xw-y||_2^2对观测目标值y的随机误差高度敏感,从而产生高方差的w

如何诊断多重共线性?
最简单直接的就是计算各自变量之间的相关系数,并进行显著性检验。
如果出现以下情况,可能存在多重共线性:
(1)模型中各对自变量之间显著性相关。皮尔逊相关系数
(2)当模型线性关系(F检验)显著时,几乎所有回归系数的t检验不显著。
(3)回归系数的正负号与预期的相反。
(4)方差膨胀因子(VIF)检测,一般认为VIF大于10,则存在严重的多重共线性。

如何解决多重共线性?
1、提前筛选变量---删除共线变量:利用相关检验来或变量聚类的方法。
在风控的评分卡模型中,一般的思想是去掉多重共线性变量,理由是增加模型稳定性,但是相对模型的预测能力来说真的是去掉了就一定好吗,如果是完全共线性的当然是需要删除的,但现实中其实特征变量之间并不是完全共线性的,所以删除有可能会导致预测的信息源减少而导致预测能力下降,其实删除只是一种处理方法,当比如 A、B两个特征共线性,那么到底选择删除哪一个也有一些方法,比如通过启发式逐个把特征加入模型看模型效果。
2、降维:有监督降维(LDA)和无监督降维(PCA)、偏最小二乘回归(PLS)
3、加正则项:Lasso回归(可以实现变量筛选),Ridge回归。
4、子集选择:包括逐步回归和最优子集法。因为该方法是贪婪算法,理论上大部分情况有效,实际中需要结合第一种方法。

二、Lasso回归

\min \limits_{w}\frac{1}{2n_{samples} }||Xw-y||_2^2+α|w|_1 =\min \limits_{w}\frac{1}{2n_{samples } }\sqrt{\sum_i^n(x_i w-y)^2}+α\sum_j^p|w_j|

Xw-y得到的是(n_sample,1)的列向量,
怎么求一个向量的L1范数?所有元素绝对值之和!
怎么求一个向量的L2范数?求每个元素的平方和再开根号!

1、产生稀疏解,即w更偏向为0,有效减少特征数,所以有筛选特征的功能;
2、Lasso and its variants are fundamental to the field of compressed sensing

三、多任务Lasso回归

\min \limits_{w} \frac{1}{2n_{samples} }||XW-Y||_{Fro} ^2+α||w||_{21}
X shape=(num_sample,num_features)
W shape=(num_features,num_tasks)
Y shape=(num_sample,num_tasks)
Fro表示the Frobenius norm,简称F-范数,是一种矩阵范数。矩阵A的F-范数为矩阵A各元素平方和再开根号:||A||_{Fro}=\sqrt{\sum_{ij}a_{ij}^2}=\sqrt{\sum_i\sum_ja_{ij}^2},其中,i表示行索引,j表示列索引;就是求矩阵A每行元素平方和,各行结果之和再开根号。
||A||_{21}=\sum_i\sqrt{\sum_ja_{ij}^2},其中,i表示行索引,j表示列索引;就是求矩阵A每行元素平方和再开根号,各行结果之和。

什么是多任务,这里的任务是啥?
任务就是回归任务,多任务就是多次回归。一次回归得到的是(num_features,1)的列向量,多次回归任务得到的是(num_features,num_tasks)的矩阵。num_tasks怎么确定?应用场景?有待学习!

四、Ridge回归

\min \limits_{w}\frac{1}{2n_{samples} }||Xw-y||_2^2+α||w||_2^2
1、更容易产生不为0,但接近与0的w;
2、more robust to collinearity;

五、Elastic-Net

\min \limits_{w}\frac{1}{2n_{samples} }||Xw-y||_2 ^2+ αρ||w||_1+\frac{α(1-ρ)}{2}||w||_2^2

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容