写在最前面的几句话，我们下面所有的问题的符号规约如下：

$m$ 代表训练集中实例的数量

$x$ 代表输入变量

$y$ 代表目标变量

$(x, y)$ 代表训练集中的实例

$(x^{(i)}, y^{(i)})$ 代表第 $i$ 个实例

$x_i$ 表示第 $i$ 个变量

$h$ 代表学习算法的解决方案或函数，也成为假设（hypothesis）

$J$ 是代价函数

1、单变量线性回归

单变量的线性回归比较简单，一般表达式为 $h_\theta(x) = \theta_0 + \theta_1x$ ，现在我们来求代价函数。我们一般用平方差损失函数，即 $(h_\theta(x^{(i)}) - y^{(i)})^2$ ，因为我们求的是平均损失，而所有的样本个数为m，那么 $J(\theta_0,\theta_1) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2$ ，后面为了方便计算，在 $m$ 旁边乘了个2，所以，原公式变为 $J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2$ ，我们的目标是让损失函数最小。
一个经典的优化方法是梯度下降法（Gradient Descent）。从公式可以看出，我们需要找到一个参数 $\theta_0$ 和 $\theta_1$ 使得损失函数最小。现在所有的 $x$ 和 $y$ 是已知的，所以 $J(\theta_0,\theta_1)$ 是关于 $\theta_0$ 和 $\theta_1$ 的函数（搞清楚这点很重要）。
现在我们考虑一个简单的情况，假设 $\theta_0$ 为0。那么损失函数变为 $J(\theta_1)$ ，如果我们对和 $\theta_1$ 取任意的值，最后可以组成如下图所示的图形

可以看出当 $J(\theta_1)$ 是关于 $\theta_1$ 的函数时，我们需要取到一个 $\theta_1$ 使得 $J(\theta_1)$ 最小。如果加上 $J(\theta_0)$ ，对 $J(\theta_0)，J(\theta_1)$ 任意取值，最后可以形成如图所示的图形

横轴为 $J(\theta_0)，J(\theta_1)$ ，数轴为 $J(\theta_0,\theta_1)$ 。所谓的梯度下降就是不断迭代 $J(\theta_0)，J(\theta_1)$ 使得损失函数最小。当然，一般的函数图像不会像这样的，一般都是这样像丘壑一样高低不平

梯度下降法（Gradient Descent）如下：首先我们需要对 $\theta_0,\theta_1$ 随机初始一个值，对应上图就是随机从图像的一点出发，然后不断更新 $\theta_0,\theta_1$ 。如图：

梯度下降这事怎么解释呢？首先我们很疑惑的是，为什么要减去导数？其实，我们只不过是沿着梯度的方向变化而已，而梯度的方向就是函数对各个变量偏导数的方向,我们需要这个方向，所以导数保留了，然后我们为什么乘 $\alpha$ ，就是因为我们可以任意变换在梯度方向的变化量。总而言之最重要的一点是，梯度的方向！！！方向！！！
我们还是以最简单的情况来看，即 $\theta_0 = 0$ ，

我们每次都 $J(\theta_1)$ 求导，那么沿着这个方向，我们不断变化然后取到最小值。
关于单变量的线性回归，我们可以求出他们需要更新值是：

推导很简单，直接将 $h_\theta(x)$ 展开成 $h_\theta(x) = \theta_0 + \theta_1x$ ，然后求偏导即可。

2、多变量线性回归

讲完了单变量线性回归，多变量就好讲了。多变量只不过多了很多 $x_i$ 的变量，它的目标函数变成了 $h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$ 。但是为了公式简洁（数学家就是强迫症），我们假设 $x_0 = 1$ ，则公式转化为 $h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$ ，然后代价函数是 $J(\theta_0,\theta_1,...,\theta_n) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2$ ，梯度下降算法为：