直接优化
直接对参数theta求导即可得最优解的形式
什么是凸函数?
如何根据表达式判断一个函数是凸函数?
求二阶偏导数,如果这个二阶偏导数矩阵是半正定的,那么这个函数就是一个凸函数
迭代法
一阶优化方法:梯度下降
二阶优化方法:牛顿法
一些其他方法
梯度下降法与随机梯度下降
引入随机梯度下降
因为我们的目的是使得训练数据在目标函数上的平均损失最小,但是训练数据一般都很大,每次都计算所有数据的损失函数求平均代价太多,所以我们改变了目标函数,在单次训练的时候目标为让这个batch内的所有数据平均损失最小。
加入动量
AdaGrad
Adam
据说ε参数很重要,许多任务上从默认的1e-8改成1的效果很好