每次求梯度,寻找一个方向
底部斜率接近为0
a 不能太小,效率低步子太小;太大容易扯着
梯度的方向,theta前进的方向;
最优化一个目标函数
并不是所有函数都有唯一的极值点
- 多次运行,随机化初始点
- 梯度下降法的初始点也是一个超参数
目标:使尽可能小
- 线性回归法的
损失函数
具有唯一的最优解
梯度下降法总结
批量梯度下降法Batch Gradient Descent
:稳定、方向一定是损失函数下降最快的方向!
随机梯度下降法Stochastic Gradient Descent
:计算快、每一次计算方向是不确定的;甚至是向反方向移动。
小批量梯度下降法Mini-Batch Gradient Descent
:综合2者优缺点,不那么极端
- 不要看所有样本这么多;
- 也不要看一个样本这么少
- 看k个样本,k行
去2种方法,不那么极端,将2者结合在一起
多引入1个超参数
梯度下降法
- 不是一个机器学习算法
- 一种基于
搜索的
最优化方法 - 作用:最小化一个损失函数
- 梯度上升法:最大化一个效用函数
随机梯度下降法
- 跳出局部最优解
- 更容易找到损失函数整体的最优解
- 更快的运行速度
-
随机搜索
、随机森林
、蒙卡洛算法
不确定世界中,不确定的问题,本身就可能没有一个固定的最优解 —— 随机有其优势