公共自行车使用量预测活动总结

前言

本次练习主要致力于xgboost回归模型（XGBRegressor）的简单的数据处理与模型调参，数据与标杆模型来自公共自行车使用量预测的一个竞赛。
（http://sofasofa.io/competition.php?id=1#c1）
结果要求RMSE的最小。

1. xgboost模型概述

1.1 XGBoost的核心算法思想

①不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。
②当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数。
③最后只需要将每棵树对应的分数加起来就是该样本的预测值。

目标是要使得树群的预测值尽量接近真实值，而且有尽量大的泛化能力。

1.2 XGBoost的优点

①使用许多策略去防止过拟合，如：正则化项、Shrinkage and Column Subsampling等。
②目标函数优化利用了损失函数关于待求函数的二阶导数。
③支持并行化，这是XGBoost的闪光点，虽然树与树之间是串行关系，但是同层级节点可并行。具体的对于某个节点，节点内选择最佳分裂点，候选分裂点计算增益用多线程并行。训练速度快。
④添加了对稀疏数据的处理。
⑤交叉验证，early stop，当预测结果已经很好的时候可以提前停止建树，加快训练速度。
⑥支持设置样本权重，该权重体现在一阶导数g和二阶导数h，通过调整权重可以去更加关注一些样本。

1.3 XGBoost的参数

通用参数：宏观函数控制。

booster：我们有两种参数选择，gbtree和gblinear。gbtree是采用树的结构来运行数据，而gblinear是基于线性模型。默认使用gbtree就可以了，不需要调参。
silent：静默模式，为1时模型运行不输出。
nthread: 使用线程数，一般我们设置成-1,使用所有线程。如果有需要，我们设置成多少就是用多少线程。

Booster参数：控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参，很这是大程度上都是在调整booster参数。

n_estimator: 也作num_boosting_rounds
这是生成的最大树的数目，也是最大的迭代次数。

learning_rate: 有时也叫作eta，系统默认值为0.3
每一步迭代的步长，很重要。太大了运行准确率不高，太小了运行速度慢。我们一般使用比默认值小一点，0.1左右就很好。

gamma：系统默认为0,我们也常用0。
在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值。这个参数的值越大，算法越保守。因为gamma值越大的时候，损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。范围: [0,∞]

subsample：系统默认为1。
这个参数控制对于每棵树，随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。典型值：0.5-1，0.5代表平均采样，防止过拟合. 范围: (0,1]，注意不可取0

colsample_bytree：系统默认值为1。我们一般设置成0.8左右。
用来控制每棵随机采样的列数的占比(每一列是一个特征)。典型值：0.5-1范围: (0,1]

colsample_bylevel：默认为1,我们也设置为1.
这个就相比于前一个更加细致了，它指的是每棵树每次节点分裂的时候列采样的比例

max_depth：系统默认值为6
我们常用3-10之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth越大，模型学习的更加具体。设置为0代表没有限制，范围: [0,∞]

max_delta_step：默认0,我们常用0.
这个参数限制了每棵树权重改变的最大步长，如果这个参数的值为0,则意味着没有约束。如果他被赋予了某一个正值，则是这个算法更加保守。通常，这个参数我们不需要设置，但是当个类别的样本极不平衡的时候，这个参数对逻辑回归优化器是很有帮助的。

min_child_weight: 默认为0
孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative。即调大这个参数能够控制过拟合。取值范围为: [0,∞]

lambda:也称reg_lambda,默认值为0。
权重的L2正则化项。(和Ridge regression类似)。这个参数是用来控制XGBoost的正则化部分的。这个参数在减少过拟合上很有帮助。

alpha:也称reg_alpha默认为0,
权重的L1正则化项。(和Lasso regression类似)。可以应用在很高维度的情况下，使得算法的速度更快。

scale_pos_weight：默认为1
在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值。

学习目标参数：控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归，做二分类还是多分类，这都是目标参数所提供的。

**objective **：在回归问题objective一般使用reg:squarederror ，即MSE均方误差。
eval_metric ：校验数据所需要的评价指标，不同的目标函数将会有缺省的评价指标。

2.本篇用到的其他模块：GridSearchCV（网格搜索）

2.2 GridSearchCV概述

GridSearchCV的sklearn官方网址：Click Here
GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优，但是省时间省力，巨大的优势面前，还是试一试吧，后续可以再拿bagging再优化。通常算法不够好，需要调试参数时必不可少。比如SVM的惩罚因子C，核函数kernel，gamma参数等，对于不同的数据使用不同的参数，结果效果可能差1-5个点，sklearn为我们提供专门调试参数的函数grid_search。

2.3 参数说明

sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise’, return_train_score=’warn’)

estimator

选择使用的分类器，并且传入除需要确定最佳的参数之外的其他参数。每一个分类器都需要一个scoring参数，或者score方法：如estimator=RandomForestClassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10),

param_grid

需要最优化的参数的取值，值为字典或者列表，例如：param_grid =param_test1，param_test1 = {'n_estimators':range(10,71,10)}。

scoring=None

模型评价标准，默认None,这时需要使用score函数；或者如scoring='roc_auc'，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。具体值的选取看本篇第三节内容。

fit_params=None

n_jobs=1

n_jobs: 并行数，int：个数,-1：跟CPU核数一致, 默认值1

iid=True

iid:默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。

refit=True

默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。

cv=None

交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器。

verbose=0, scoring=None

verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。

pre_dispatch=‘2*n_jobs’

指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次

error_score=’raise’

eturn_train_score=’warn’

如果“False”，cv_results_属性将不包括训练分数。回到sklearn里面的GridSearchCV，GridSearchCV用于系统地遍历多种参数组合，通过交叉验证确定最佳效果参数。

3. 数据清洗

3.1判断缺失值

import pandas as pd
train = pd.read_csv("train.csv")
print(train.info())

运行得到结果如下：

缺失值判断

可见共一万条数据，没有缺失值

3.2 删除重复值

我认为重复值在实际情况中出现是有可能的，所以我认为即使出现重复值，其实也不需要删除。

3.3 查看数据间的相关性

import pandas as pd
corr = train.corr()
print(corr)

得到结果

corr

由图中我们可以看出，当日温度、体感温度和当地时间跟借车数量之间的变化关联程度较高。

4.xgboost回归模型调参

4.1 调参刚开始的时候，一般要先初始化一些值：

1，选择较高的学习速率（learning rate）。一般情况下，学习速率的值为0.1。但是对于不同的问题，理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。 Xgboost有一个很有用的函数“cv”，这个函数可以在每一次迭代中使用交叉验证，并返回理想的决策树数量。

2，对于给定的学习速率和决策树数量，进行决策树特定参数调优（max_depth，min_child_weight，gamma，subsample，colsample_bytree）。在确定一棵树的过程中，我们可以选择不同的参数。

3，Xgboost的正则化参数的调优。（lambda，alpha）。这些参数可以降低模型的复杂度，从而提高模型的表现。

4，降低学习速率，确定理想参数。

4.2 xgboost使用GridSearchCV调参

三、1、Xgboost 的默认参数如下（在sklearn库中的默认参数）：

我们先定义一些值：

learning_rate: 0.1

(学习率)

n_estimators: 500

（数的个数）

max_depth: 5

（树的深度）

scale_pos_weight: 1

（权重。大于0的取值可以处理类别不平衡的情况，帮助模型更快收敛）

subsample: 0.8

（用于训练模型的子样本占整个样本集合的比例。如果设置为0.5则意味着XGBoost将随机的冲整个样本集合中随机的抽取出50%的子样本建立树模型，这能够防止过拟合）

colsample_bytree:0.8

（在建立树时对特征随机采样的比例。缺省值为1）取值范围：0-1

nthread：4

（XGBoost运行时的线程数。缺省值是当前系统可以获得的最大线程数如果你希望以最大速度运行，建议不设置这个参数，模型将自动获得最大线程）

gamma: 0

（模型在默认情况下，对于一个节点的划分只有在其loss function 得到结果大于0的情况下才进行，而gamma 给定了所需的最低loss function的值）

seed:27

（随机数的种子，缺省值为0。可以用于产生可重复的结果（每次取一样的seed即可得到相同的随机划分）

=================开始调参================

最佳迭代次数：n_estimators


from xgboostimport XGBRegressor

from sklearn.model_selectionimport GridSearchCV

import pandasas pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")

# 删除id

train.drop('id',axis=1,inplace=True)

test.drop('id',axis=1,inplace=True)

# 取出训练集的y

y_train = train.pop('y')

param_test1 = {

'n_estimators':range(100,2000,100)

}

gsearch1 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.5,max_depth=5,

min_child_weight=1,gamma=0,subsample=0.8,colsample_bytree=0.8,

nthread=4,scale_pos_weight=1,seed=27,),

param_grid=param_test1,iid=False,cv=5)

gsearch1.fit(train, y_train)

print(gsearch1.best_params_, gsearch1.best_score_)

结果

{'n_estimators': 600} 0.908950282399466

最优决策树数量为600，得分0.908

==============分割===================

max_depth和min_child_weight

（树的最大深度，缺省值为3，范围是[1, 正无穷），树的深度越大，则对数据的拟合程度越高，但是通常取值为3-10）
（我们先大范围地粗调参数，然后再小范围地微调）

from xgboostimport XGBRegressor

from sklearn.model_selectionimport GridSearchCV

import pandasas pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")

# 删除id

train.drop('id',axis=1,inplace=True)

test.drop('id',axis=1,inplace=True)

# 取出训练集的y

y_train = train.pop('y')

param_test2 = {

'max_depth':range(3,10,2),

'min_child_weight':range(1,6,2)

}

gsearch2 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.1,n_estimators=600),

param_grid=param_test2)

gsearch2.fit(train, y_train)

print(gsearch2.best_params_, gsearch2.best_score_)

得出结果：

{'max_depth': 5, 'min_child_weight': 5} 0.9037286898745251

我们对于数值进行较大跨度的48种不同的排列组合，可以看出理想的max_depth值为5，理想的min_child_weight值为5。

3、Gamma参数调优
　　Gamma参数取值范围可以很大，我这里把取值范围设置为5，其实我们也可以取更精确的Gamma值。

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")


# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

param_test4 = {
    'gamma': [i / 10.0 for i in range(0, 5)]
}
gsearch4 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5),
                        param_grid=param_test4)
gsearch4.fit(train, y_train)
print(gsearch4.best_params_, gsearch4.best_score_)

{'gamma': 0.0} 0.9037286898745251

得出的结果，Gamma最优值为0。

4、调整subsample 和 colsample_bytree 参数
（subsample 用于训练模型的子样本占整个样本集合的比例，如果设置0.5则意味着XGBoost将随机的从整个样本集合中抽取出百分之50的子样本建立模型，这样能防止过拟合，取值范围为(0, 1]）
（在建立树的时候对特征采样的比例，缺省值为1，物质范围为(0, 1]）

我们分两个阶段来进行这个步骤。这两个步骤都取0.6,0.7,0.8,0.9 作为起始值。

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")


# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

param_test5 = {
    'subsample': [i / 10.0 for i in range(6, 10)],
    'colsample_bytree': [i / 10.0 for i in range(6, 10)]
}
gsearch5 = GridSearchCV(
    estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0),
    param_grid=param_test5)
gsearch5.fit(train, y_train)
print(gsearch5.best_params_, gsearch5.best_score_)

{'colsample_bytree': 0.9, 'subsample': 0.6} 0.9037951735474006

结果为最优值：0.9、0.6

5、正则化参数调优
（由于gamma函数提供了一种更加有效的降低过拟合的方法，大部分人很少会用到这个参数，但是我们可以尝试用一下这个参数。）

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")

# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

param_test6 = {
    'reg_alpha': [0, 0.001, 0.005, 0.01, 0.05]
}
gsearch6 = GridSearchCV(
    estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0,
                           colsample_bytree=0.9, subsample=0.7),
    param_grid=param_test6)
gsearch6.fit(train, y_train)
print(gsearch6.best_params_, gsearch6.best_score_)

{'reg_alpha': 0.005} 0.9030424269369616

结果为0.005
最后调参得到的参数组合为：

{'n_estimators': 600} 0.9008950282399466
{'max_depth': 5, 'min_child_weight': 5} 0.9037286898745251
{'gamma': 0.0} 0.9037286898745251
{'colsample_bytree': 0.9, 'subsample': 0.6} 0.9037951735474006
{'reg_alpha': 0.005} 0.9030424269369616

汇总：

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")


# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

reg = XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0,
                   colsample_bytree=0.9, subsample=0.7, reg_alpha=0.001)
reg.fit(train, y_train)
y_pred = reg.predict(test)

# 输出预测结果至answer.csv
submit['y'] = y_pred
submit.to_csv('answer.csv', index=False)

输出之后发现存在输出值为负数的情况，

输出值为负

明显租借单车的数量不可能为负数，所以我们在y_pred中加多一条，使他的<0的y等于0。

y_pred [ y_pred < 0 ] = 0

最终结果

FINAL

得分15.078，排名47

最后编辑于：2020.06.02 19:54:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342