训练数据集
设需要拟合的函数:
====找出,令h逼近y。
梯度下降原理:
定义损失函数:
n训练样本个数
偏导:
最小化损失函数,负梯度方向更新
批量梯度下降法(Batch gradient descent):每次迭代使用所有的样本,全局优化。
随机梯度下降法(Stochastic gradient descent):每次迭代使用一组样本,从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
小批量梯度下降(Mini-batch gradient descent):每次迭代使用b组样本,每次从样本中随机抽取一小批进行训练,而不是一组。