sklearn文档 — 1.5. 随机梯度下降

原文章为scikit-learn中"用户指南"-->"监督学习的第五节：Stochastic Gradient Descent"######

**随机梯度下降(SGD) 是一个既有效又简单的方法去用于在诸如（线性）支持向量机和 Logistic回归中，"凸"代价函数下的线性分类器的辨别学习。尽管 SGD **已经在机器学习社区存在了很长一段时间了，但是在最近的大规模学习的浪潮下它还是得到了很多人的关注。

SGD 已经很成功的应用在了大规模下和稀疏机器学习问题上，主要是用于进行文本分类和自然语言处理。对给定一个稀疏的数据，（Sklearn）中的分类器能够很容易的扩展为能够处理超过10^{5个训练样本和超过10}5个特征的问题。

**SGD **的优点有：

极其效率。
易于实施（有大量调整代码的余地）。

但是其缺点有：

需要许多超参数，例如正则化参数和迭代次数。
对数据缩放很敏感。

1.5.1. 分类#

注意：请确保在每次拟合模型之前都对数据进行重新排序，不然则设置 shuffle=True 使得在每次迭代中都会重排数据。

类 SGDClassifier
实现了一个常规的朴素梯度下降学习，其对分类问题支持许多不同的代价函数和惩罚项。

一个SGD分类的实例

跟其他分类器一样，**SGD 同样需要拟合两个数组：一个保存着训练样本，尺寸为 [n_samples, n_features] 的数组 X 和一个保存着结果标签，尺寸为 [n_samples] 的数组 y **：

>>> from sklearn.linear_model import SGDClassifier
>>> X = [[0., 0.], [1., 1.]]
>>> y = [0, 1]
>>> clf = SGDClassifier(loss="hinge", penalty="l2")
>>> clf.fit(X, y)
SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='hinge', n_iter=5, n_jobs=1,
       penalty='l2', power_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False)

在拟合之后，这个模型就可以用来预测了：

>>> clf.predict([[2., 2.]])
array([1])

**SGD 使用训练集拟合了一个线性模型，其成员 coef_ **保存着模型参数：

>>> clf.coef_                                         
array([[ 9.9...,  9.9...]])

然后成员** intercept_ **保存着截距（也称为偏移值或偏差）

>>> clf.intercept_                                    
array([-9.9...])

不用关心模型是不是用了截距，其超平面截距，都是由** fit_intercept **参数控制。

可以通过 SGDClassifier.decision_function
来获得超平面的带符号距离：

>>> clf.decision_function([[2., 2.]])                 
array([ 29.6...])

可以通过** loss **参数来选择具体是要使用哪个代价函数。SGDClassifier
支持以下几种代价函数：

loss="hinge": (软边际) 线性支持向量机,
loss="modified_huber": 平滑的 hinge 代价函数,
loss="log": logistic回归,
和下方"回归"一节中的代价函数.

前面两种代价函数是懒惰的，他们只在样本违反了边际的约束（即出现意外值时）才会更新模型参数，也因为如此在训练的时候很执行效率很高，但也同样会使得产生出不同稀疏模型，即便是使用了L2惩罚项。

设置** loss="log" ** 或 ** loss="modified_huber" 来启用 predict_proba 函数，这个函数对于每个样本 x 都会给出估计概率( P(y | x) **)矩阵。

>>> clf = SGDClassifier(loss="log").fit(X, y)
>>> clf.predict_proba([[1., 1.]])                      
array([[ 0.00...,  0.99...]])

可以通过** penalty 参数来选择需要使用哪种惩罚项，SGD **支持下列几种：

penalty="l2": 使用L2范数对** coef_ **进行惩罚。
penalty="l1": 使用L1范数对** coef_ **进行惩罚。
penalty="elasticnet": 使用L2和L1的凸组合： (1 - l1_ratio) * L2 + l1_ratio * L1 对** coef_ **进行惩罚。

**SGD 的默认惩罚项是 penalty="l2" ，使用L1惩罚项会生成出一个大多数系数为零的稀疏模型。若使用弹性网络则会解决一些L1惩罚在高度相关属性中存在的缺陷。参数 l1_ratio **控制着L2与L2惩罚项的凸组合。

SGDClassifier
能够在“一对多” (OVA)方案下，通过组合多个二元分类器来进行多类分类。对于每一个K类，二元分类器会比较其与** K-1 **类的区别进行学习。在测试阶段，我们为每一个分类器计算其置信度（即到超平面的带符号距离），然后选择具有高置信度的类。下方的图表表现了OVA在鸢尾花数据集中的表现。虚线代表着三种OVA分类器；背景颜色则表现了这三个分类器的决策边界。

三种OVA分类器在iris数据集的表现

在多类分类情况，**coef_ 是一个形状为 [n_classes, n_features] 的二维数组，然后 intercept_ 是一个形状为 [n_classes] 的一维数组。然后对第 i 行的 coef_ 而言，其保存着第 i 类的分类器的权重向量。然后类是按升序来索引的（可以查看 classes_ 属性）。但要注意的是，因为在原则上这个多类分类器是允许创建出一个概率模型的，所以最好设置代价函数为 loss="log" 或 loss="modified_huber" **，这样做比使用默认的代价函数要更适合这个一对多分类。

SGDClassifier
能通过** fit 参数 class_weight 和 sample_weight **支持权重类和权重实例。要了解更多的内容可以查看下面的例子或是这个类的说明文档 SGDClassifier.fit
。

示例

SGDClassifier
支持平均SGD（ASGD）。可以通过设置** average=True **来开启平均化。ASGD的工作原理是通过在每个样本的迭代中，分别平均化其平面SGD的系数。当使用ASGD时，学习率可能会变得很大（耗时下降），甚至会不断地导致一些数据集在训练的耗时减少。

对于使用** logistic 代价函数的分类，另一种 SGD **的变体是在随机平均梯度（SAG）算法中启用平均化策略，其包含在 LogisticRegression
中，同样可以作为一个求解器使用。

1.5.2. 回归#

SGDRegressor
类实现了一个常规的朴素梯度下降学习，其支持对拟合线性模型设置许多不同的代价函数和惩罚项。SGDRegressor
是一个适合用来对有大量训练样本（> 10,000）回归问题，若是对其他回归问题，则建议使用Ridge
，Lasso
，或 ElasticNet
。

可以通过** loss **参数来选择具体是要使用哪个代价函数。SGDRegressor
支持以下几种代价函数：

loss="squared_loss"：最小二乘法。
loss="huber"：稳健回归中的Huber损失。
loss="epsilon_insensitive"：线性支持向量回归。

**huber 和 epsilon_insensitive 代价函数都是能够在稳健回归中使用的。不敏感区的宽度只能通过 epsilon **参数来设置，并且这个参数取决于目标变量的规模。

SGDRegressor
类似 SGDClassifier
，都是支持平均 SGD的。

对带有平方损失和L2惩罚项的回归来说，另一种SGD的可选方案是使用随机平均梯度（SAG）算法，其包含在 Ridge
，同样能够单独作为求解器来使用。

1.5.3. 对稀疏数据使用随机梯度下降#

注意：因为在截距上收缩了学习速率，所以稀疏实现与密集实现的结果会有所不同。

对符合格式要求的任意稀疏矩阵都在 scipy.sparse 中存在内置支持。但是如果要追求最大效率的话，可以使用 scipy.sparse.csr_matrix 内所定义CSR矩阵格式。

示例

使用稀疏特征的文档分类

1.5.4. 复杂度#

SGD的主要优点就在于其执行效率，根据训练样本的数量基本上是呈线性的。如果** X 是一个尺寸为 (n, p) 的矩阵，根据代价函数 O(k·n·p) 进行训练，其中 k 是迭代数量，而 p **则是每个样本非零属性的平均值。

但是近期的研究结果显示，获得期望的最优准确度所需的时间并不是随着训练集大小的增加而增加。

1.5.5. 实用技巧#

SGD对特征缩放很敏感，所以在这里高度建议对数据进行缩放。举例来说，对输入向量** X 的每个特征缩放为值域是[0, 1]或[-1, +1]，又或者是将其标准化为均值为0，方差为1的值域。当然也要对测试集做相同的缩放操作。
这些操作可以使用 StandardScaler **来简单的完成：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)  # Don't cheat - fit only on training data
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)  # apply same transformation to test data

如果你的参数存在内在尺度（例如单词出现频率或指标特征），那么就不应该对其进行缩放。

使用** GridSearchCV 来寻找一个合理的 α 项，通常限制的范围是 10.0**-np.arrage(1, 7)**。
通常来说，当我们观察了大约的训练结果后（观察学习曲线或模型图）就会认为SGD已经收敛了。
以数量为10^6的训练样本为例，鉴于此一个对迭代数量的初步合理的猜想是** n_iter = np.ceil(10**6 / n) ，其中 n **是训练集的数量。
如果你讲SGD应用在使用PCA提取出的特征上，一般的建议是通过寻找某个常数** c **来缩放特征，使得训练数据的平均L2范数等于1。
平均SGD（ASGD）最适合应用在有超大数量的特征与很高的** eta0 **的样本上。

引用

“Efficient BackProp” Y. LeCun, L. Bottou, G. Orr, K. Müller - In Neural Networks: Tricks of the Trade 1998.

1.5.6. 数学公式#

给定一个训练集（x1, y1）,...,（xn, yn），其中** xi ∈ R^n ， yi ∈ {-1, 1} 。我们的目标是在使用模型参数 ω ∈ R^m 和截距 b ∈ R 的情况下，学习线性评分函数 f(x) = ω^T·x + b 。为了做出预测，我们简单的将这个函数用 f(x) 来代替。然后通常是使用最小化正规训练误差来找到适合的模型参数（ω 和 b**）。

最小化代价函数

其中** L 是测量模型（mis）拟合用的代价函数， R 是惩罚模型复杂性的正则化项（也成为惩罚项）。α ＞ 0 **是一个非负超参数。

对不同的分类使用不同的** L **，例如：

Hinge：(软边界) 支持向量机。
Log：Logistic回归。
Least-Squares：岭回归。
Epsilon-Insensitive：(软边界)支持向量回归。

上述的损失函数都可以被认为是误分类误差（0-1）的上限，即下图所示：

损失函数图

常用的正则项** R **有：

L2范数
L1范数，产生稀疏结果
弹性网络，L2与L1的凸组合，其中** p **由** 1 - l1_ratio **得出

下面的图显示了在** R(ω) = 1 **的情况下，使用各种正规化后函数的轮廓：

三种正规化的轮廓

1.5.6.1. SGD##

随机梯度下降是无约束最优化问题的一种优化方式。比较与（批）梯度下降，SGD的方式是分别考虑单个样本来逼近** E(ω， b) **的真实梯度。

SGDClassifier
实现了一个一阶SGD学习。这个算法迭代训练样本并对每一个样本根据下面的公式来更新模型参数：

ω参数

其中** n 是控制着步进的学习速率。截距 b **也是以类似的方式更新，除了不需要正则化。

学习速率** n 可以是一个恒定值或是衰减值。对分类问题而言，默认的学习速率（learning_rate='optimal'**）是通过下面的公式给出：

分类的学习速率公式

上式的** t 是间隔时间（此处是 n_samples * n_iter 的总和），而t0是基于Léon Bottou提出的启发式来确定的，默认是跟权重的初始值一致（这是在假设训练样本的范数是近似为1的情况下）。关于这个的确切定义可以在 BaseSGD 的 _init_t **中找到。

对回归问题而言，默认的学习速率（learning_rate='invscaling'）是通过下面的公式给出：

回归的学习速率公式

其中** eta0 和 power_t 是通过用户在 eta0 和 power_t **输入的超参数。

如果要使用恒定的学习速率则设置** learning_rate='constant' ，固定值则是设置 eta0 **了。

可以通过** coef_ 和 intercept_ **来访问模型参数：

coef_成员保存着权重** ω **。
intercept_成员保存着** b **。

引用

“Solving large scale linear prediction problems using stochastic gradient descent algorithms” T. Zhang - In Proceedings of ICML ‘04.
“Regularization and variable selection via the elastic net” H. Zou, T. Hastie - Journal of the Royal Statistical Society Series B, 67 (2), 301-320.
“Towards Optimal One Pass Large Scale Learning with Averaged Stochastic Gradient Descent”Xu, Wei

1.5.7. 实现细节#

SGD的实现受Léon Bottou的随机梯度SVM 影响。与SvmSGD相似，权重向量代表着标量和向量的乘积，而这允许在L2正则化下能够有效地对权重进行更新。在稀疏特征向量的情况下，截距是参照更小的学习速率（更新频率为学习速率乘以0.01）来更新的，而这说明了会很频繁的对截距进行更新。训练样本被顺序挑出，并且在"观察"每个样本后就将降低学习速率。在该类中我们是采用了Shalev-Shwartz 等人在2007年所提出的学习速率。对于多类分类问题则是采用了"一对多"。然后再正则化方面则是采用了由 Tsuruoka 等人在2009年提出的裁断梯度算法来为L1正则化（弹性网络也包括在内）。最后则是使用了Cython来进行代码实现。

引用

“Stochastic Gradient Descent” L. Bottou - Website, 2010.
“The Tradeoffs of Large Scale Machine Learning” L. Bottou - Website, 2011.
“Pegasos: Primal estimated sub-gradient solver for svm” S. Shalev-Shwartz, Y. Singer, N. Srebro - In Proceedings of ICML ‘07.
“Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty” Y. Tsuruoka, J. Tsujii, S. Ananiadou - In Proceedings of the AFNLP/ACL ‘09.

（在尝试翻译这篇文档的时候难免会因为各种问题而出现错翻，如果发现的话，烦请指出，谢谢> <）

最后编辑于：2017.12.05 12:54:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343