优化的问题:梯度消失、局部最优
梯度消失、梯度爆炸
局部最优:
梯度下降
梯度下降的优化影响
大小选择
指数加权平均(梯度下降算法本身的优化)
权重越大,曲线越平滑,权重越小,曲线越曲折
动量梯度下降法
这样的梯度下降有什么变化:
RMSProp算法
Adam算法
tensorflow Adam算法API
学习率衰减
标准化输入
代码练习
动量梯度下降
公式中的s在代码中定义成了v
优化的问题:梯度消失、局部最优
局部最优:
梯度下降
大小选择
权重越大,曲线越平滑,权重越小,曲线越曲折
这样的梯度下降有什么变化:
公式中的s在代码中定义成了v