梯度下降法:(已最快的速度找到最优解的方法)
自己的理解:有监督的机器学习,利用给定的一批X和Y取解参数,即模型。在线性回归方程的问题上,我们的目的是要求得wo,w1...wn这些参数。用线性代数的方式表达即是W(theta)。根据最小方差的公式可以准确的计算出W。但这在样本和特征(即x1,x2...xn这些因变量)少的情况下还行,在特征值非常多的情况下,如图片的像素点就非常困难。所以采用梯度下降法的方式来解决
基本公式 theta1 = theta0 - gradient*learning_rate
gradient:梯度,即方程的导数,在当时的时刻(theta值)导数的值反应了函数变化量。
我们的目的是找到导数gradient的值=0的时刻对应的theta值,当theta在目标值(最有theta)左边,梯度值小于0,减去梯度导致theta更尽皆目标值。相反在右边梯度大于0,同样使得theta更接近目标值。
learning_rate:学习率,根据经验来调整
对于线性回归的方程,在拥有多个特征的情况下theta不是一个值。而是一个向量。所以一般情况下我们要求得的是每个因变量对应的偏导
线性公式求偏导过程:
求解过程:前部分用线性代数的方式表示,复合函数的求导,偏导数的理解