机器学习数学基础(1)---导数优化问题

一、前言

熟悉机器学习的童靴会发现，机器学习中许多算法都是如下思路：问题提出、建立损失函数（loss function）、求出最优解。最优解的求解过程，往往是个迭代过程，使损失函数达到最优（或一定阈值范围内）。这里列举几类机器学习常见优化问题：

可见，最优化方法在机器学习中的重要地位。本文介绍几种常用的导数优化方法，希望对更加深入（ｃｕｉ）学（ｎｉｕ）习（ｂｉ）机器学习有所帮助。

二、最优化问题及凸优化问题

2.1 最优化问题(optimization)

这里我先直接上度娘

如果对以上的解释还有些迷糊，那看一下如下例题：

例1.

看完，我们基本上就都熟悉了，上面的例题是我们在高中一口气做20道都不会错的题目(如果忘了怎么解，请翻看《5年高考3年模拟精装版》)

以上例1便是一个典型的最优化问题，更准确地说，是一个线性规划问题。这里，我给出最优化问题的大白话解释:

最优化问题:

1.根据应用场景找到目标函数（如例1中的盈利）,这个目标函数将是你要优化的

2.找到一个能让目标函数最优的方法

3.利用这个方法进行求解

2.2 最优化问题定义及分类

2.2.1 最优化问题定义

这里，给出最优化问题数学上形式化的定义：

（摘自Stephen Boyd《Convex Optimization》一书）

其中x为n维向量，也是我们最终要求出的解;subject to (s.t.)为受限于，第一项为不等式约束，第二项为等式约束

2.2.1 最优化问题的分类

最优化问题有多种多样的分类方法，主要依据不同的分类角度，这里列举最简单的两种分类

1.根据约束函数分类：无约束优化、等式约束优化、不等式约束优化

2.根据目标函数是否为凸：凸优化、非凸优化

后面讲到的都是无约束+凸的问题，无约束的凸优化是比较好求解(一定有最优解)同时很容易掌握的。

2.3 凸优化问题(convex optimization)

可以看到，凸优化问题只是在优化问题上加上了凸的限制。之所以要研究凸优化问题，是因为凸优化是一类特别“优”的优化问题，它的优体现在：

1.凸优化问题的可行域是凸集

2.凸优化问题的局部最优解均是全局最优解

凸集非凸集

凸函数最优解情况非凸函数最优解情况

有关凸集、凸函数的数学解释不展开讲，在求解最优化问题时记住以下形象比喻即可：

1.凸优化问题，好比你面对的是一个峡谷，只要你一直往下走，一定能达到峡谷的最低点（最优解）

2.非凸优化，你可能面对的是一个坑坑洼洼的大草原，你可能走到了某个低洼地带（局部最优），但这不是整个草原的最低点（全局最优）

常用的线性回归、逻辑回归都是凸问题。值得指出的是，很多童鞋认为k-means也是凸问题，其实k-means的目标函数是非凸的，所以k-means不保证能找到全局最优解，但每次都能找到局部最优解，所以k-means受初始点影响很大，一般都是多次计算取最优（相当于在几个局部最优解选最优）。

三、导数优化问题

前面两个章节，我们从最优化问题讲到了凸优化问题，主要还是提纲挈领地讲了一些概念性的知识点。那么，如何具体求解凸优化问题呢，本节主要介绍无约束条件下的导数优化方法。

导数优化方法的套路都是下降方法(descent method)，通俗的说，就是以一定的步长、一定的方向往最优解（峡谷底部）靠近。下降方法的形式化定义如下：

导数优化问题基本套路

以上的套路是比较通用的，不同方法的差异仅仅在搜索方向上。值得说明的是，如果遵循步子迈太大容易扯着蛋的原则，同时最优步长可计算的情况下，可以在每次迭代时选择最优步长，但在实际应用中我们往往也使用固定步长。

步子迈太大容易扯着蛋

依据搜索方向的不同，可以细分为许多不同的方法：

常用导数优化方法

上述（1）~（4）为非常常用的几类方法，（1）、（2）、（3）选择了三种不同的搜索方向，（4）在（3）的基础上做了改进，主要避免了Hesse矩阵逆的计算。由于篇幅所限，主要讲解（1）和（2）

3.1 梯度下降法（Gradient descent/Steepest descent）

例2.

3.2 牛顿法

在梯度下降法中，我们看到，该方法主要利用的是目标函数的局部性质，具有一定的“盲目性”。牛顿法则是利用局部的一阶和二阶偏导信息，推测整个目标函数的形状，进而可以求得出近似函数的全局最小值，然后将当前的最小值设定近似函数的最小值。相比梯度下降法，牛顿法带有一定对全局的预测性，收敛性质也更优良。

对牛顿方向的推导：

将上述最后一项与下降方法一般式进行比较，会发现，牛顿法是以牛顿方向为搜索方向，1为固定步长进行迭代计算:

优点：二次终止性。对于二次凸函数，经过有限次迭代必达到极小点

缺点：步长恒等于1，并不能保证函数值稳定的下降

牛顿法迭代步骤：

牛顿法迭代步骤

例3.

牛顿法适用的情形:要求目标函数具有连续的一、二阶导数；Hesse矩阵非奇异。但现实情况是，就算是满足以上条件，由于要求解二阶偏导及其逆矩阵，计算所需资源会很大，这时候DFP、BFGS等会是很好的替代方法。

四、小结

最优化方法是机器学习的重要基础，上述的方法能很好的解决相关算法问题。比如。可以利用梯度下降法求解线性回归以及矩阵分解问题，LR问题也可由牛顿法求解，后续会介绍相关应用。

最后编辑于：2017.12.07 03:50:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,362评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,330评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,247评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,560评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,580评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,569评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,929评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,587评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,840评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,596评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,678评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,366评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,945评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,929评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,165评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,271评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,403评论 2赞 342