前言
本次练习主要致力于xgboost回归模型(XGBRegressor)的简单的数据处理与模型调参,数据与标杆模型来自公共自行车使用量预测的一个竞赛。
(http://sofasofa.io/competition.php?id=1#c1)
结果要求RMSE的最小。
1. xgboost模型概述
1.1 XGBoost的核心算法思想
①不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。
②当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数。
③最后只需要将每棵树对应的分数加起来就是该样本的预测值。
目标是要使得树群的预测值尽量接近真实值,而且有尽量大的泛化能力。
1.2 XGBoost的优点
①使用许多策略去防止过拟合,如:正则化项、Shrinkage and Column Subsampling等。
②目标函数优化利用了损失函数关于待求函数的二阶导数。
③支持并行化,这是XGBoost的闪光点,虽然树与树之间是串行关系,但是同层级节点可并行。具体的对于某个节点,节点内选择最佳分裂点,候选分裂点计算增益用多线程并行。训练速度快。
④添加了对稀疏数据的处理。
⑤交叉验证,early stop,当预测结果已经很好的时候可以提前停止建树,加快训练速度。
⑥支持设置样本权重,该权重体现在一阶导数g和二阶导数h,通过调整权重可以去更加关注一些样本。
1.3 XGBoost的参数
通用参数:宏观函数控制。
booster:我们有两种参数选择,gbtree和gblinear。gbtree是采用树的结构来运行数据,而gblinear是基于线性模型。默认使用gbtree就可以了,不需要调参。
silent:静默模式,为1时模型运行不输出。
nthread: 使用线程数,一般我们设置成-1,使用所有线程。如果有需要,我们设置成多少就是用多少线程。
Booster参数:控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参,很这是大程度上都是在调整booster参数。
n_estimator: 也作num_boosting_rounds
这是生成的最大树的数目,也是最大的迭代次数。learning_rate: 有时也叫作eta,系统默认值为0.3
每一步迭代的步长,很重要。太大了运行准确率不高,太小了运行速度慢。我们一般使用比默认值小一点,0.1左右就很好。gamma:系统默认为0,我们也常用0。
在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。因为gamma值越大的时候,损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。范围: [0,∞]subsample:系统默认为1。
这个参数控制对于每棵树,随机采样的比例。减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。 典型值:0.5-1,0.5代表平均采样,防止过拟合. 范围: (0,1],注意不可取0colsample_bytree:系统默认值为1。我们一般设置成0.8左右。
用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值:0.5-1范围: (0,1]colsample_bylevel:默认为1,我们也设置为1.
这个就相比于前一个更加细致了,它指的是每棵树每次节点分裂的时候列采样的比例max_depth: 系统默认值为6
我们常用3-10之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth越大,模型学习的更加具体。设置为0代表没有限制,范围: [0,∞]max_delta_step:默认0,我们常用0.
这个参数限制了每棵树权重改变的最大步长,如果这个参数的值为0,则意味着没有约束。如果他被赋予了某一个正值,则是这个算法更加保守。通常,这个参数我们不需要设置,但是当个类别的样本极不平衡的时候,这个参数对逻辑回归优化器是很有帮助的。min_child_weight: 默认为0
孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中,这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative。即调大这个参数能够控制过拟合。取值范围为: [0,∞]lambda:也称reg_lambda,默认值为0。
权重的L2正则化项。(和Ridge regression类似)。这个参数是用来控制XGBoost的正则化部分的。这个参数在减少过拟合上很有帮助。alpha:也称reg_alpha默认为0,
权重的L1正则化项。(和Lasso regression类似)。 可以应用在很高维度的情况下,使得算法的速度更快。scale_pos_weight:默认为1
在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值。
学习目标参数:控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归,做二分类还是多分类,这都是目标参数所提供的。
**objective **:在回归问题objective一般使用reg:squarederror ,即MSE均方误差。
eval_metric :校验数据所需要的评价指标,不同的目标函数将会有缺省的评价指标。
2.本篇用到的其他模块:GridSearchCV(网格搜索)
2.2 GridSearchCV概述
GridSearchCV的sklearn官方网址:Click Here
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力,巨大的优势面前,还是试一试吧,后续可以再拿bagging再优化。 通常算法不够好,需要调试参数时必不可少。比如SVM的惩罚因子C,核函数kernel,gamma参数等,对于不同的数据使用不同的参数,结果效果可能差1-5个点,sklearn为我们提供专门调试参数的函数grid_search。
2.3 参数说明
sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise’, return_train_score=’warn’)
estimator
选择使用的分类器,并且传入除需要确定最佳的参数之外的其他参数。每一个分类器都需要一个scoring参数,或者score方法:如estimator=RandomForestClassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10),
param_grid
需要最优化的参数的取值,值为字典或者列表,例如:param_grid =param_test1,param_test1 = {'n_estimators':range(10,71,10)}。
scoring=None
模型评价标准,默认None,这时需要使用score函数;或者如scoring='roc_auc',根据所选模型不同,评价准则不同。字符串(函数名),或是可调用对象,需要其函数签名形如:scorer(estimator, X, y);如果是None,则使用estimator的误差估计函数。具体值的选取看本篇第三节内容。
fit_params=None
n_jobs=1
n_jobs: 并行数,int:个数,-1:跟CPU核数一致, 默认值1
iid=True
iid:默认True,为True时,默认为各个样本fold概率分布一致,误差估计为所有样本之和,而非各个fold的平均。
refit=True
默认为True,程序将会以交叉验证训练集得到的最佳参数,重新对所有可用的训练集与开发集进行,作为最终用于性能评估的最佳模型参数。即在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集。
cv=None
交叉验证参数,默认None,使用三折交叉验证。指定fold数量,默认为3,也可以是yield训练/测试数据的生成器。
verbose=0, scoring=None
verbose:日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。
pre_dispatch=‘2*n_jobs’
指定总共分发的并行任务数。当n_jobs大于1时,数据将在每个运行点进行复制,这可能导致OOM,而设置pre_dispatch参数,则可以预先划分总共的job数量,使数据最多被复制pre_dispatch次
error_score=’raise’
eturn_train_score=’warn’
如果“False”,cv_results_属性将不包括训练分数。 回到sklearn里面的GridSearchCV,GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。
3. 数据清洗
3.1判断缺失值
import pandas as pd
train = pd.read_csv("train.csv")
print(train.info())
运行得到结果如下:
可见共一万条数据,没有缺失值
3.2 删除重复值
我认为重复值在实际情况中出现是有可能的,所以我认为即使出现重复值,其实也不需要删除。
3.3 查看数据间的相关性
import pandas as pd
corr = train.corr()
print(corr)
得到结果
由图中我们可以看出,当日温度、体感温度和当地时间跟借车数量之间的变化关联程度较高。
4.xgboost回归模型调参
4.1 调参刚开始的时候,一般要先初始化一些值:
1,选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。 Xgboost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。
2,对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth,min_child_weight,gamma,subsample,colsample_bytree)。在确定一棵树的过程中,我们可以选择不同的参数。
3,Xgboost的正则化参数的调优。(lambda,alpha)。这些参数可以降低模型的复杂度,从而提高模型的表现。
4,降低学习速率,确定理想参数。
4.2 xgboost使用GridSearchCV调参
三、1、Xgboost 的默认参数如下(在sklearn库中的默认参数):
我们先定义一些值:
learning_rate: 0.1
(学习率)
n_estimators: 500
(数的个数)
max_depth: 5
(树的深度)
scale_pos_weight: 1
(权重。大于0的取值可以处理类别不平衡的情况,帮助模型更快收敛)
subsample: 0.8
(用于训练模型的子样本占整个样本集合的比例。如果设置为0.5则意味着XGBoost将随机的冲整个样本集合中随机的抽取出50%的子样本建立树模型,这能够防止过拟合)
colsample_bytree:0.8
(在建立树时对特征随机采样的比例。缺省值为1)取值范围:0-1
nthread:4
(XGBoost运行时的线程数。缺省值是当前系统可以获得的最大线程数如果你希望以最大 速度运行,建议不设置这个参数,模型将自动获得最大线程)
gamma: 0
(模型在默认情况下,对于一个节点的划分只有在其loss function 得到结果大于0的情况下才进行,而gamma 给定了所需的最低loss function的值)
seed:27
(随机数的种子,缺省值为0。可以用于产生可重复的结果(每次取一样的seed即可得到相同的随机划分)
=================开始调参================
最佳迭代次数:n_estimators
from xgboostimport XGBRegressor
from sklearn.model_selectionimport GridSearchCV
import pandasas pd
# 读取数据
train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")
test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")
# 删除id
train.drop('id',axis=1,inplace=True)
test.drop('id',axis=1,inplace=True)
# 取出训练集的y
y_train = train.pop('y')
param_test1 = {
'n_estimators':range(100,2000,100)
}
gsearch1 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.5,max_depth=5,
min_child_weight=1,gamma=0,subsample=0.8,colsample_bytree=0.8,
nthread=4,scale_pos_weight=1,seed=27,),
param_grid=param_test1,iid=False,cv=5)
gsearch1.fit(train, y_train)
print(gsearch1.best_params_, gsearch1.best_score_)
结果
{'n_estimators': 600} 0.908950282399466
最优决策树数量为600,得分0.908
==============分割===================
max_depth和min_child_weight
(树的最大深度,缺省值为3,范围是[1, 正无穷),树的深度越大,则对数据的拟合程度越高,但是通常取值为3-10)
(我们先大范围地粗调参数,然后再小范围地微调)
from xgboostimport XGBRegressor
from sklearn.model_selectionimport GridSearchCV
import pandasas pd
# 读取数据
train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")
test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")
# 删除id
train.drop('id',axis=1,inplace=True)
test.drop('id',axis=1,inplace=True)
# 取出训练集的y
y_train = train.pop('y')
param_test2 = {
'max_depth':range(3,10,2),
'min_child_weight':range(1,6,2)
}
gsearch2 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.1,n_estimators=600),
param_grid=param_test2)
gsearch2.fit(train, y_train)
print(gsearch2.best_params_, gsearch2.best_score_)
得出结果:
{'max_depth': 5, 'min_child_weight': 5} 0.9037286898745251
我们对于数值进行较大跨度的48种不同的排列组合,可以看出理想的max_depth值为5,理想的min_child_weight值为5。
3、Gamma参数调优
Gamma参数取值范围可以很大,我这里把取值范围设置为5,其实我们也可以取更精确的Gamma值。
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd
# 读取数据
train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")
test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")
# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)
# 取出训练集的y
y_train = train.pop('y')
param_test4 = {
'gamma': [i / 10.0 for i in range(0, 5)]
}
gsearch4 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5),
param_grid=param_test4)
gsearch4.fit(train, y_train)
print(gsearch4.best_params_, gsearch4.best_score_)
{'gamma': 0.0} 0.9037286898745251
得出的结果,Gamma最优值为0。
4、调整subsample 和 colsample_bytree 参数
(subsample 用于训练模型的子样本占整个样本集合的比例,如果设置0.5则意味着XGBoost将随机的从整个样本集合中抽取出百分之50的子样本建立模型,这样能防止过拟合,取值范围为(0, 1])
(在建立树的时候对特征采样的比例,缺省值为1,物质范围为(0, 1])
我们分两个阶段来进行这个步骤。这两个步骤都取0.6,0.7,0.8,0.9 作为起始值。
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd
# 读取数据
train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")
test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")
# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)
# 取出训练集的y
y_train = train.pop('y')
param_test5 = {
'subsample': [i / 10.0 for i in range(6, 10)],
'colsample_bytree': [i / 10.0 for i in range(6, 10)]
}
gsearch5 = GridSearchCV(
estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0),
param_grid=param_test5)
gsearch5.fit(train, y_train)
print(gsearch5.best_params_, gsearch5.best_score_)
{'colsample_bytree': 0.9, 'subsample': 0.6} 0.9037951735474006
结果为最优值:0.9、0.6
5、正则化参数调优
(由于gamma函数提供了一种更加有效的降低过拟合的方法,大部分人很少会用到这个参数,但是我们可以尝试用一下这个参数。)
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd
# 读取数据
train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")
test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")
# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)
# 取出训练集的y
y_train = train.pop('y')
param_test6 = {
'reg_alpha': [0, 0.001, 0.005, 0.01, 0.05]
}
gsearch6 = GridSearchCV(
estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0,
colsample_bytree=0.9, subsample=0.7),
param_grid=param_test6)
gsearch6.fit(train, y_train)
print(gsearch6.best_params_, gsearch6.best_score_)
{'reg_alpha': 0.005} 0.9030424269369616
结果为0.005
最后调参得到的参数组合为:
{'n_estimators': 600} 0.9008950282399466
{'max_depth': 5, 'min_child_weight': 5} 0.9037286898745251
{'gamma': 0.0} 0.9037286898745251
{'colsample_bytree': 0.9, 'subsample': 0.6} 0.9037951735474006
{'reg_alpha': 0.005} 0.9030424269369616
汇总:
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd
# 读取数据
train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")
test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")
# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)
# 取出训练集的y
y_train = train.pop('y')
reg = XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0,
colsample_bytree=0.9, subsample=0.7, reg_alpha=0.001)
reg.fit(train, y_train)
y_pred = reg.predict(test)
# 输出预测结果至answer.csv
submit['y'] = y_pred
submit.to_csv('answer.csv', index=False)
输出之后发现存在输出值为负数的情况,
明显租借单车的数量不可能为负数,所以我们在y_pred中加多一条,使他的<0的y等于0。
y_pred [ y_pred < 0 ] = 0
最终结果
得分15.078,排名47