梯度下降法
超参
上面讲了梯度下降法,其中的
α
,又叫做步长,它决定了为了找到最小值点而尝试在目标函数上前进的步伐到底走多大。
步长是算法自己学习不出来的,它必须由外界指定。
这种算法不能学习,需要人为设定的参数,就叫做超参数
梯度下降的难点
可能会出现走到了一个局部极小值就无法前进的情况
如果目标函数不能确定只有一个极小值,而获得的模型结果又不令人满意时,就该考虑是否是在学习的过程中,优化算法进入了局部而非全局最小值。
这种情况下,可以尝试几个不同的起始点。甚至尝试一下大步长,说不定反而能够跨出局部最小值点所在的凸域。