假设函数:
参数:θ
特征量:x
代价函数:
梯度下降算法:下图为梯度下降的目的,找到J(θ)的最小值。
其实,J(θ)的真正图形是类似下面这样的,因为其是一个凸函数,只有一个全局最优解,所以不必担心像上图一样找到局部最优解。
特征缩放:
特征缩放(Feature scaling),在这里我认为它是对用于梯度下降法的数据进行处理的方法。它的作用是,将多个特征的数据的取值范围处理在相近的范围内,从而使梯度下降更快地收敛。
(1) 该特征的值/该特征的最大值
x=x/s
(2) (该特征值-该特征最大取值的一半)/(该特征的最大值)
x=(x-μ)/s
μ:特征量平均值 s:特征量最大值减最小值
学习率:
除了特征的缩放会影响梯度下降的运算,学习速率也会直接影响。这里所说的“学习速率”,指的是梯度下降表达式中的α。
如何判断学习速率是否合适?最直接的方法是,画出训练后代价函数和迭代数的图像,根据图像去判断调整。除此之外,还可以使用自动检测法。即当代价函数在迭代中,小于一个很小的值时,我们就认为梯度下降收敛。但是,这个“很小的值”是很难确定的,一般可取1e-3。当然,还是优先选择第一种方法判断!下面就列举几种常见情况进行讲解。
数学原理证明,只要学习速率足够小,代价函数一定会减小,只是学习速率太小的话,迭代的次数会增加。在具体实现时,α的取值可以通过不断尝试,不断调整,最终确定。可尝试的值:0.001,0.003,0.01,0.03,0.1,0.3,1
单变量与多变量线性回归比较:
正规方程法:
由线性代数运算,可得:
观察该方程,也许你会有疑问:如果X'X不可逆的时候,怎么办呢?
首先,我们要搞明白什么时候会使它不可逆。原因:
1.特征中,有冗余的特征向量,如:向量之间互为线性;
2.训练数据太少,特征太多。
解决方法:针对第一个原因,我们可以删除冗余的特征;针对第二个,我们可以适当去掉一些不那么重要的特征,或者使用正规化方法。
Python代码:
# -*- coding: utf-8 -*-
"""
Created on Sun Jan 22 14:27:15 2017
@author: louishao
"""
import numpyas np
#train data
train_x = np.mat([[1,1],[1,2],[1,3],[1,4],[1,5],[1,6],[1,7],[1,8],[1,9],[1,10],[1,11],[1,12],[1,13],[1,14]])
train_y = np.mat([3.0,5.0,7.0,9.0,11.0,13.0,15.0,17.0,19.0,21.0,23.0,25.0,27.0,29.0])
# transpose the train_y
y = np.transpose(train_y)
#transpose the train_x
transposex = np.transpose(train_x)
#the inverse
invx = np.linalg.inv(transposex*train_x)
theta = invx*transposex*y
theta1 =float(theta[1][0])
theta0 =float(theta[0][0])
print "the predict function is y=%sx+%s"%(theta1,theta0)
梯度下降和正规方程的比较: