为什么是梯度

梯度下降是一个优化算法,为什么是梯度呢?为什么不是硬度?长度?零度?百度?

图片来自本人半年前发布在B站的可视化梯度下降,要不您去看看?点链接

优化问题分成无约束优化和有约束优化,有约束优化最终都要调整成无约束优化问题,所以我们直接看无约束优化问题,它的标准形式如下:

\min_{x}f(x)

严格的数学定义里要求 f(x)是一个平滑函数,一般来说x是向量,比如机器学习里面动不动就是上百维的x,我们的目标是找到一个x使得f(x)最小,小学二年级在学习完微积分后我们知道最小值肯定出现在 f(x)一阶导数等于0的时候,可以使一阶导数等于0的x叫驻点,那你可能就要问了,既然可以得到解析解(analytical solution/closed solution),为什么还要用梯度下降求呢?原因大概如此:如果f(x)极其复杂的话,计算它的一阶导数非常困难,其次还得让计算机求解


简书不让输入这个公式,智能上图片,丑~~

为了求解一个问题,引入另一个复杂问题~这不是解决问题的思路~所以才会出现优化算法。

求解优化问题肯定脱离不了大概也许是计算机世界最伟大的思想——迭代,给定一个初始的x,叫它x_0, 通过某种策略,得到一个新的x,叫它x_1,要求f(x_1) < f(x_0),再找一个新的x,叫x_2,同样要求f(x_2) < f(x_1),一只更新 x,一直得到更小的f(x),直到您满意为止,如何从x_0x_1直到x_n就是各种优化算法干的活,简单点说就是如何从大概有两种思路,一种叫线性搜索(Linear Search),另一种叫信任域(Trust Range),Trust Range我没仔细看过,不瞎指挥~梯度下降属于线性搜索。

既然要求f(x_{k+1})<f(x_k),再次迭代的函数值要小于这次的函数值,只要每次迭代都能保证这样,函数值就会一直变小,多么美好的愿景(耗子尾汁),如何得到x_{k+1} 呢?这里需要引荐一个人,Taylor


图片来自百度搜索

当然不是霉霉,而是下面这位:

图片来自百度搜索~

以这位泰勒命名的定理,泰勒定理,还记得么?


定理:

设 n 是一个正整数。如果定义在一个包含 a的区间上的函数 f 在 a 点处 n+1次可导,那么对于这个区间上的任意 x,都有:


没错,这是一张图片,因为简书不支持导数符号~我服~

其中的多项式称为函数在a 处的泰勒展开式,剩余的R_n(x)是泰勒公式的余项,是(x-a)^n的高阶无穷小。


上面定理来自维基百科泰勒公式,看起来就很伤吧,没关系,这不重要,放在我们的情况下可以这样解释,新引入一个\Delta x=x_{k+1}-x_{k},如果这个\Delta x足够小的话,f(x_{k} + \Delta x)近似等于f(x_k) + \nabla f(x_k) \cdot \Delta x,这里为啥把一阶导数换成梯度符号\nabla,首先因为帅,其次因为简书不支持上面一撇的写法。当然计算二阶导数会更准确,但是也更复杂了,使用二阶导数更新的方法叫牛顿方法(newton)超出本文的番位,后面咱再聊,我们现在就使用一阶导数近似:

f(x_{k+1})  = f(x_k + \Delta x) \approx f(x_k)+\nabla f(x_k) \cdot \Delta x

x是向量所以\Delta x也是向量,是向量就有两部分长度和方向

\Delta x = \alpha p_k

\alpha是大于0的非常小的常数,叫它步长吧,p_k是单位向量,新一轮的函数值可以写成:

f(x_k) + \alpha p_{k}^{T}\nabla f(x_k),既然要求它小于f(x_k) ,所以 \alpha p_{k}^{T}\nabla f(x_k)小于0,既然是让f(x_k) + \alpha p_{k}^{T}\nabla f(x_k) < f(x_k),反正是走一步,那就尽量让这一步的函数值小一点,索性就让这一次迭代的函数值最小得了,当然是在\alpha这个常数一定的情况~~~所以新一轮迭代的要求可以写成:

\min f(x_k) + \alpha p_{k}^{T}\nabla f(x_k)

因为每次迭代x都发生了变化,所以每次都可以计算上面这个最小化问题,大概跟下山一样,每次下降到一个位置,就需要重新选择一个方向继续下降。其中f(x_k) 是上一轮的函数值,已知,\alpha大于0的很小的常数,事先给定的,已知,与下面的最小化是等价的:

\min  p_{k}^{T}\nabla f(x_k)

啰嗦一句,最小化 p_{k}^{T}\nabla f(x_k) 就是最小化f(x_k) + \alpha p_{k}^{T}\nabla f(x_k) ,也就是最小化f(x_k + \Delta x),也就是 最下化f(x_{k+1}),意思就是,下一步在步长\alpha固定的情况下尽可能的让f(x_{k+1})小,每一次迭代都尽可能的小,直到到达某个x稳定下来~其实这个思路非常贪婪,很可能会掉入局部最小值无法自拔,当然也有解决思路,有机会聊~

\min  p_{k}^{T}\nabla f(x_k) 怎么解?两个向量做乘法,假如两个向量的夹角\theta,看下图:


这个图真大~好想不能调整~

根据向量乘法的定义p_k^T\nabla f(x_k)=\left \| p_k \right \|\left \| \nabla f(x_k) \right \| \cos \theta,其中\left \| p_k \right \|\left \| \nabla f(x_k) \right \| 是大于0的,\cos \theta最小等于-1,于是p_k^T\nabla f(x_k)最小等于- \left \| p_k \right \|\left \| \nabla f(x_k) \right \| ,此时\theta = 180^{\circ},像这样:


还是好大的图

 p_k\nabla f(x_k)的方向是相反的,向量表示就是p_k=-\nabla f(x_k),有没有一种似曾相识的感觉,没错,梯度下降的公式终于出现了,新一轮可以使f(x_{k+1})尽可能小移动方向是负梯度方向~梯度下降~

如果每次我们都选择负梯度方向更新x,在保证f(x_k + \Delta x) < f(x_k)的同时,还能保证f(x_k + \Delta x) 一直是最小的,每次迭代都会更新x,所以下次又可以计算\min f(x_k + \Delta x) ,这样一直迭代下去,总是会找到一个x使得f(x)最小~当然可能是局部最小。

PS:

既然保证每次迭代f(x_{k+1}) < f(x_k),也就是p_{k}^{T}\nabla f(x_k) 小于0就可以,所以 p_k不一定非要选择负梯度方向


哎~好大的图~弄的好丑

只要\alpha足够小, p_k可以选择左边蓝色区域的任意方向,都以保证新一轮的f(x_{k+1})小于f(x_k)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  •   在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降算法(Gradient Descent Algori...
    taoKingRead阅读 1,255评论 0 0
  • 学号:17020150034 姓名:于明轩 转自:https://www.cnblogs.com/pinar...
    轩_07ad阅读 190评论 0 0
  • 转载-刘建平Pinard-www.cnblogs.com/pinard/p/5970503.html 在求解机器学...
    商三郎阅读 3,490评论 0 2
  • 上一章中有提到利用解析解求解多元线性回归,虽然看起来很方便,但是在解析解求解的过程中会涉及到矩阵求逆的步骤...
    今晨er阅读 478评论 0 0
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,482评论 16 22