复习 - 模型的拟合问题 - 方差偏差权衡、损失函数、L2,L1, Elastic Net弹性网络、K折交叉验证法

拟合状态模型

随着时间推移,话题k和用户兴趣之间的关系

\color{red}{欠拟合},预测值和真实值本身差距就很远。预测的\color{red}{偏差L(f)}很大。
\color{red}{过拟合},会去刻意得迎合异常值,导致预测值的\color{red}{方差Ω(f)}会比较大。

\color{red}{模型总误差}是有两部分构成的:过拟合的方差+欠拟合的偏差2
通过上述公式可以推导出一个\color{red}{方差偏差权衡} 的概念

方差偏差权衡

06 回归算法 - 损失函数、过拟合欠拟合


07 回归算法 - 过拟合欠拟合案例
在过拟合欠拟合案例中,我们使用\color{red}{多项式扩展}来解决欠拟合的问题,但随着多项式扩展维度的增加,最后模型会变得过拟合。

线性回归 - 多项式扩展 - 不同维度的拟合度

1阶多项式扩展欠拟合,5阶多项式扩展相对比较优秀,9阶多项式扩展过拟合。
观察9阶多项式扩展的结果,系数都非常大。这是模型过多迎合了异常值造成的结果。
9阶多项式扩展形成的模型很难对测试集上的值进行准确预测。

\color{red}{重点:}过拟合,意味着函数在迎合异常值。而当线条在要迎合某一点异常值的时候,斜率会非常大。原本平滑的线条需要迎合了异常值后再回来。 所以,模型系数大导数值大,意味着模型迎合了异常值。模型过拟合

\color{red}{结论:当模型过拟合的时候,一般系数都比较大。}
\color{red}{通过这种方式去判断,即使不画图我们也能预测模型是否过拟合。}


\color{red}{那么怎么解决这种过拟合的问题?}
\color{red}{1、减少特征数。}
\color{red}{2、增加正则项、惩罚项。}

目标函数

为了防止数据过拟合,也就是θ值在样本空间中不能过大/过小,可以在目标函数之上增加一个损失函数:

\color{red}{损失函数(loss/cost function)}

损失函数

在J(θ)中,λ的值越大,损失函数对模型的约束力越好
L2正则 的线性回归模型,称为 Ridge回归 (岭回归)
L1正则 的线性回归模型,称为 LASSO回归

加入了损失函数的目标函数

PS:回过头去看,L1、L2正则其实就是\color{red}{拉格朗日函数}。(SVM中讲到的算法,请融会贯通)
L1、L2中加入惩罚项之后,对应的就是\color{red}{原始问题加入限制条件的情况}


08 回归算法 - 解决过拟合 - L2(Ridge)和L1(LASSO)正则 这章里解释了L1、L2正则的工作原理

===\color{red}{ L2和L1的比较} ===

\color{red}{L2-norm正则},所以不可能导致有维度参数变成0的情况,那么也就不会产生\color{red}{稀疏解};Ridge模型具有较高的准确性、鲁棒性以及稳定性;
\color{red}{L1-norm正则}可以达到最终解的稀疏性要求。LASSO模型具有较高的求解速度;
\color{red}{总结:}当我们觉得每个特征都是有用的,用L2。如果想用回归的手段确定特征的可用性,用L1


\color{red}{什么是稀疏解?} 详解 对于一组参数θk,其中有一个或多个θ等于0,或近似等于0。称这组参数θk存在稀疏解。稀疏的解可以找到有用的维度并减少冗余,提高预测的\color{red}{准确率}\color{red}{鲁棒性}(减少了overfitting)。

\color{red}{为何稀疏解可以找到有用的维度并减少冗余?}
y=ax1+bx2+c; 若求解得到 a=3; b=0; c=2;
我们发现x2特征对于结果的预测没有任何帮助,所以可以将x2的特征删除。


===\color{red}{ Elastic Net 弹性网络算法} ===

\color{red}{如果即要考虑稳定性也考虑求解的速度,就使用Elastic Net。} Elastic Net案例
同时使用L1正则和L2正则的线性回归模型就称为Elastic Net,\color{red}{弹性网络算法}


\color{red}{Elastic Net 需要调的超参数:p、λ} 09 回归算法 - 机器学习调参
在实际工作中,对于各种算法模型(线性回归)来讲,我们需要输入θ、p、λ的值。
θ=(XTX)-1XTY ;算法会自动生成,无需人工干预。p、λ 都是超参数;需要人工调整。

\color{red}{求解p、λ的过程叫做调参。}如交叉验证:将训练数据分成多份,其中一份进行数据验证,并获取最优的超参:p、λ;常见的方法:k折交叉验证。五折交叉验证 (scikit-learn中默认)

\color{red}{K折交叉验证法 (k-fold cross validation) :}划分为k个互斥子集,用k-1作为训练集,剩下一个为测试集,最终每一个子集都会作为测试集,其余子集作为训练集,共进行k次建模,最终得到测试结果的均值。k取值一般为10。随机取k个互斥子集,进行p次,最后p个k-fold cv进行取平均,叫做p次k折交叉验证。

k折交叉验证即能帮我们挑选出最优参数,也能帮我们挑选出最优模型。

k折交叉验证的目的:
得到模型相对稳定的评价指标,尽可能避免异常值带来的影响。
通过:在划分的时候选择多个训练集和多组测试集,求平均的效果。通过平均的度量使得测试结果相对可信一点。

技巧 - 训练集与测试集划分方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容