用户流失预警项目总结

本文是对携程用户流失预测案例的一个总结，主要任务是对客户流失率进行建模分析，并挖掘出影响用户流失的关键因素。

项目介绍
问题分析
数据探索
特征工程
建模分析
总结

一、项目介绍

携程作为中国领先的综合性旅行服务公司，每天向超过2.5亿会员提供全方位的旅行服务，在这海量的网站访问量中，我们可分析用户的行为数据来挖掘潜在的信息资源。其中，客户流失率是考量业务成绩的一个非常关键的指标。此次分析的目的是为了深入了解用户画像及行为偏好，找到最优算法，挖掘出影响用户流失的关键因素，从而更好地完善产品设计、提升用户体验。（项目及数据来源）

二、问题分析

这个项目要解决的问题是关于用户流失的，在官方提供的字段和解释中，有一个label字段，这个是目标变量，也就是我们需要进行预测的值。label=1代表客户流失，label=0代表客户未流失，很显然这是个分类的预测问题。

对于本项目而言，最终的评价标准是要求在精确度达到97%的情况下，最大化召回率。

从业务角度理解这个评价标准，携程作为一个大平台，用户量非常大，挽回用户所需成本较大，所以需要有一个很高的精确率来降低不必要的成本浪费，同时也要尽可能的挽回流失客户，所以需要尽可能高的召回率。

这里引申一下其他比赛常用的标准：如无特别说明，一般用的是PR曲线和ROC曲线。ROC曲线有一个突出优势，就是不受样本不均衡的影响（ROC曲线不受样本不均衡问题的影响）

三、数据探索

1、数据总体情况

官方共提供2个数据集，分别为训练集userlostprob_train.txt和测试集userlostprob_test.txt。训练集为2016.05.15-2016.05.21期间一周的访问数据，测试集为2016.05.22-2016.05.28期间一周的访问数据。测试集不提供目标变量label，需自行预测。为保护客户隐私，不提供uid等信息。此外，数据经过了脱敏，和实际商品的订单量、浏览量、转化率等有一些差距，但是不会影响这个问题的可解性。

数据共有51个字段，除了目标变量label，还有50个特征。

训练集数据总览

目标变量label存在一定程度的不均衡，但是程度不大，因此可以用PR曲线做模型性能评估。

label值统计

观察数据集，并进行指标梳理。指标可以分为三类，一类是订单相关的指标，如入住日期、订单数、取消率等；一类是与客户行为相关的指标，如星级偏好、用户偏好价格等；还有一类是与酒店相关的指标，如酒店评分均值、酒店评分人数、平均价格等。

字段指标

这个数据集有大量的缺失值分布在各个特征中。51列中只有7列数据是完整的，arrival、sampleid、d、h、iforderpv_24h、sid、label。其他44列存在不同程度的缺失，其中historyvisit_7ordernum缺失率接近88%。后面会根据缺失情况，结合特征分布，选用合适的方法填充缺失值。

#缺失比例计算
na_rate = (len(df)-df.count())/len(df)
na_rate.sort_values(ascending=False,inplace=True)
x = df.shape[1] #用x代表数据列数

#作出各列缺失比例的条形图
a1 = pd.DataFrame(na_rate)
fig = plt.figure(figsize=(8,12))#图形大小,单位为英寸（1英寸=2.5cm）
plt.barh(range(x),a1[0], color= 'orange', alpha = 1)

# 添加轴标签
plt.xlabel('data_na_rate')

# 添加刻度标签
columns1=a1.index.values.tolist() # 列名称
plt.yticks(range(x),columns1)
for x,y in enumerate(a1[0]):
    plt.text(y,x,'{}{}'.format(round(y*100,2),'%'),va='center')

#设置X轴的刻度范围
plt.xlim([0, 1])

各列缺失率

2、各个特征的分布
查看所有数值型特征的分布情况，一方面有利于特征工程中根据数据分布合理选用处理方法，包括异常值、缺失值处理，连续特征离散化处理；另一方面有助于深入了解用户行为。

for i in range(0,50):
    plt.hist(df[df.columns[i]].dropna().get_values(),bins=30)
    plt.xlabel(df.columns[i])
    plt.show()

businessrate_pre

businessrate_pre2

cancelrate_pre

四、特征工程
数据和特征决定了机器学习效果的上限，而模型和算法只是逼近这个上限。特征工程是建模前的关键步骤，特征处理得好，可以提升模型的性能。
整个特征工程的任务主要包括：格式转换、缺失值处理、衍生特征、聚类特征、独热编码、标准化等。
1、时间特征处理

1）格式转换
时间特征不存在缺失值，可以先处理。访问日期d和入住日期arrival是字符串格式，需要进行格式转换。这里使用pandas中常用的时间函数to_datetime()，将字符串格式转换为日期格式。

df['d'] = pd.to_datetime(df['d'], format = '%Y-%m-%d')
#df['d'] = df['d'].astype('datetime64[D]')
df['arrival'] = pd.to_datetime(df['arrival'], format='%Y-%m-%d')

2）衍生特征
衍生特征是根据现有特征衍生出来的一些特征，比如访问日期和实际入住日期之间的差值，入住日期是周几，入住日期否为周末。在机器学习中，是否为周末这个特征往往是非常重要的。

df['week2day'] = df['arrival'].map(lambda x: x.weekday())]
#查看用户入住的日期是否为周末
def is_weekend(a):
    if int(a) in [0,1,2,3,4]:
        return 0 #0代表是工作日
    else:
        return 1 #1代表是周末
df['is_weekend'] = df['week2day'].apply(is_weekend)
#查看用户预定的与实际入住之间相隔的天数
df['booking_gap'] = (df['arrival'] -df['d']).map(lambda x: x.days).astype(int)

2、异常值处理
观察到用户偏好价格delta_price1、delta_price2，以及当前酒店可订最低价lowestprice存在一些负值，理论上酒店的价格不可能为负。同时数据分布比较集中，因此采取中位数填充。而客户价值customer_value_profit、ctrip_profits也不应该为负值，这里将其填充为0。deltaprice_pre2_t1是酒店价格与对手价差均值，可以为负值，无需处理。

# 查看最小值为负值的特征
df_min=df.min().iloc[4:]
df_min[df_min<0]

存在负值的列

neg1=['delta_price1','delta_price2','lowestprice']
neg2=['customer_value_profit','ctrip_profits']
for col in neg1:
    df.loc[df[col]<0,col] = df[col].median()
for col in neg2:
    df.loc[df[col]<0,col] = 0

3、缺失值处理
缺失值全部为数值型数据，结合各个特征的含义及数据分布情况，进行以下处理：
1）针对一些不可预计的数据用-999填充缺失值

#针对不可预计的数据用-999填充NA
fillNauWith999 = ['ordercanncelednum',  # 取消订单数 242114
                  'landhalfhours',  # 24小时登陆时长 28633
                  'starprefer',  # 星级偏好 225053
                  "consuming_capacity",  # 消费能力指数 226108
                  'historyvisit_avghotelnum',  # 近3个月用户历史日均访问酒店数 302069
                  'delta_price1',  # 用户偏好价格-24小时浏览最多酒店价格
                  'ordernum_oneyear',  # 年订单数
                  'avgprice',  # 平均价格
                  'delta_price2',  # 用户偏好价格-24小时浏览酒店平均价格
                  'customer_value_profit',  # 客户近一年的价值
                  'ctrip_profits',  # 客户价值
                  'lasthtlordergap',  # 一年内距离上次下单时长 缺失值占242114条记录
                  'lastpvgap',  # 一年内距上次访问时长 缺失值共97127记录
                  'cr',  # 用户转化率
                  'decisionhabit_user' #用户决策习惯
                  ]

2）忽略两端极值的影响，可以把businessrate_pre、businessrate_pre2、cancelrate_pre等一些特征近似看作正态分布，使用平均值填充缺失值。

#正态分布使用平均值填充
fillNauWithMean = ['commentnums',  # 酒店评论数
                   'novoters',  # 酒店当前评论人数
                   'cancelrate',  # 当前酒店历史取消率 11718
                   'price_sensitive',  # 价格敏感指数
                   'hoteluv',  # 当前酒店历史UV
                   'hotelcr',  # 当前酒店历史转化率
                   'cr_pre',  # 24小时历史浏览次数最多酒店历史cr 29397
                   'lowestprice',  # 当前酒店可定最低价
                   'lowestprice_pre2',  # 24h 访问酒店可预定最低价
                   'customereval_pre2',  # 24小时历史浏览酒店客户评分均值 28633条记录缺失
                   'commentnums_pre',  # 24小时历史浏览次数最多酒店点评数
                   'commentnums_pre2',  # 24小时历史浏览酒店点评数均值
                   'cancelrate_pre',  # 24小时内已访问次数最多酒店历史取消率
                   'novoters_pre2',  # 24小时历史浏览酒店评分人数均值
                   'novoters_pre',  # 24小时历史浏览次数最多酒店评分人数
                   'deltaprice_pre2_t1',  # 24小时内已访问酒店价格与对手价差均值
                   'lowestprice_pre',  # 24小时内已访问次数最多酒店可订最低价
                   'uv_pre',  # 24小时历史浏览次数最多酒店历史uv
                   'uv_pre2',  # 24小时历史浏览酒店历史uv均值
                   'businessrate_pre',  # 24小时历史浏览次数最多酒店商务属性指数
                   'businessrate_pre2',  # 24小时内已访问酒店商务属性指数均值
                   'cityuvs',  # 昨日访问当前城市同入住日期的app uv数
                   'cityorders',  # 昨日提交当前城市同入住日期的app订单数
                   'visitnum_oneyear'  # 年访问次数
                     ]

3）对于以下4个特征值，系统填充NA时一般是因为不存在数据，所以直接使用0填充缺失值

#这部分数据系统填充NA是因为不存在数据，所以可以直接用0填充NA
fillfeatureswith0 = ['historyvisit_7ordernum', #近7天用户历史订单数
                  'historyvisit_totalordernum', #近1年用户历史订单数
                  'ordercanceledprecent', #用户一年内取消订单率
                  'historyvisit_visit_detailpagenum'  # 7天内访问酒店详情页数
                       ]

4）对于'firstorder_bu'第一次使用的客户，不存在流失的情况，所以将这一列丢弃

def missingvalue(data):
    for col in fillNauWith999:
        data[col] = data[col].fillna(-999)
    for col in fillNauWithMean:
        fillvalue = data[col].mean()
        data[col] = data[col].fillna(fillvalue)
    for col in fillfeatureswith0:
        data[col] = data[col].fillna(0)   
    return data
missingvalue(df)
df = df.drop(['firstorder_bu'],axis=1)

经过以上处理后，df.info()如下,可以看到已经没有缺失的列了：

填充缺失值后的df.info()

4、聚类特征
整个数据集中非常重要的两部分信息，一个是用户相关的数据，一个是酒店相关的数据。因此把这两类主体进行一个聚类，并把类的标签作为一个新的特征。这里使用KMeans的方法做聚类处理，分别将用户和酒店分成5个类别。

#标准化
ss = StandardScaler()
#用户聚类
user_group = df[['historyvisit_7ordernum','historyvisit_totalordernum','ordercanceledprecent','historyvisit_visit_detailpagenum','historyvisit_avghotelnum','lowestprice_pre']]
for i in range(len(user_group.columns)):
   user_group[user_group.columns[i]] = ss.fit_transform(user_group[user_group.columns[i]].values.reshape(-1,1))
#酒店聚类
hotel_group = df[['commentnums','novoters','cancelrate','hoteluv','hotelcr','lowestprice']]
for i in range(len(hotel_group.columns)):
   hotel_group[hotel_group.columns[i]] = ss.fit_transform(hotel_group[hotel_group.columns[i]].values.reshape(-1,1))
#K-means方法分五类，并将标签作为一个新的特征
df['user_type'] = KMeans(n_clusters=5, init='k-means++').fit_predict(user_group)
df['hotel_type'] = KMeans(n_clusters=5, init='k-means++').fit_predict(hotel_group)

5、连续特征离散化
在这个案例中，将某些数值型特征转换成类别呈现更有意义，比如用户决策习惯、星级偏好、平均价格、消费能力指数等，同一类别表现出相似的属性。同时可以使得算法减少噪声的干扰。而且在机器学习中，一般很少直接将连续值作为逻辑回归模型的特征输入。特征离散化以后，可以简化逻辑回归模型，降低了模型过拟合的风险。后面会用到逻辑回归模型，所以在这里还是先做离散化处理。
根据业务经验选择合适的连续型特征，在一定的数值范围内划分分区。

def deal_decisionhabit_user(x):
   if x==-999:
       return 0
   elif x<10:
       return 1
   elif x<30:
       return 2
   else:
       return 3
def deal_starprefer(x):
   if x==-999:
       return 0
   elif x<50:
       return 1
   elif x<80:
       return 2
   else:
       return 3
def deal_avgprice(x):
   if  x==-999:
       return 0
   elif x< 300:
       return 1
   elif x<1000:
       return 2
   else:
       return 3
def deal_consuming_capacity(x):
   if  x==-999:
       return 0
   elif x< 50:
       return 1
   else:
       return 2

离散化之后的特征，以及酒店和用户这两个聚类特征，均为数值型，都需要转换为字符串型，以便接下来进行独热编码：

df['decisionhabit_user']=df['decisionhabit_user'].map(lambda x:str(deal_decisionhabit_user(int(x))))
df["starprefer"] = df["starprefer"].map(lambda x:str(deal_starprefer(int(x))))
df["consuming_capacity"] = df["consuming_capacity"].map(lambda x: str(deal_consuming_capacity(int(x))))
df['avgprice'] = df['avgprice'].map(lambda x: str(deal_avgprice(int(x))))
df[["user_type","hotel_type"]]=df[["user_type","hotel_type"]].applymap(str)

6、分类变量one-hot-encode
对分类变量进行独热编码，可以解决分类器不好处理属性数据的问题，编码后的特征都可以看做是连续的特征，并且在一定程度上也起到了扩充特征的作用。

enc = OneHotEncoder(handle_unknown='ignore')
enc.fit(df[['starprefer','consuming_capacity','avgprice','decisionhabit_user','user_type','hotel_type']])
a = enc.transform(df[['starprefer','consuming_capacity','avgprice','decisionhabit_user','user_type','hotel_type']]).toarray()
df = pd.concat([df,pd.DataFrame(a)], axis=1)
df = df.drop(['starprefer','consuming_capacity','avgprice','decisionhabit_user','user_type','hotel_type'],axis=1)

7、用户分组特征
由于数据集没有提供用户uid，需要根据已有特征对用户进行分组，生成用户标签usertag。这里采取了一种近似的方法，如果用户的某些行为特征相同，则认为是同一个用户的行为。后面需要根据用户标签分割数据集，同一个用户的信息不能同时出现在训练集和测试集中，否则模型会过拟合。
这里用于判断是否为同一用户行为的特征有：用户一年内取消订单数、近3个月用户历史日均访问酒店数、用户年订单数、客户价值_近1年、客户价值、用户转化率、年访问次数，并且使用hash函数处理字符串。

df['usertag']= df.ordercanncelednum.map(str) + df.historyvisit_avghotelnum.map(str) + df.ordernum_oneyear.map(str) + df.customer_value_profit.map(str) + df.ctrip_profits.map(str) + df.cr.map(str) + df.visitnum_oneyear.map(str)
df.usertag = df.usertag.map(lambda x: hash(x)) #生成哈希值

8、特征的相关系数
查看各特征与label之间的关系，并除去相关系数小于0.01的特征

processeddata = df.groupby('usertag').max()
corrdf = processeddata.corr()
delete_columns = []
for i in range(corrdf.shape[0]):
    if abs(corrdf.iloc[0,i]) < 0.01:
        delete_columns.append(processeddata.columns[i])
processeddata.drop(delete_columns,axis=1,inplace=True)

9、标准化处理
对于一些基于距离的模型，需要标准化处理，比如回归分析、神经网络、SVM。
而对于与距离计算无关的树模型，不需要标准化处理，比如决策树、随机森林等，因为树中节点的选择只关注当前特征在哪里切分对分类更好，即只在意特征内部的相对大小，而与特征间的相对大小无关。
这里还是标准化处理下，后面会用到不同的模型做对比。

#将label,usertag列除开进行标准化
df1 = pd.DataFrame(df_drop['label']) 
df2 = df_drop.iloc[:,1:-1] #需要标准化的列
df3 = pd.DataFrame(df_drop['usertag'])
df2_columns = df2.columns.tolist() #将df2的列名提取出来保存
scaler = preprocessing.StandardScaler().fit(df2)
df2 = scaler.transform(df2)
df2 = pd.DataFrame(df2,columns=df2_columns) #标准化处理后的数据是array，转换为DataFrame
df_new = pd.concat([df1,df2,df3],axis=1)

10、分割数据集
在使用数据集训练模型之前，我们需要先将整个数据集分为训练集、验证集、测试集。训练集是用来训练模型的，通过尝试不同的方法和思路使用训练集来训练不同的模型，再通过验证集使用交叉验证来挑选最优的模型，通过不断的迭代来改善模型在验证集上的性能，最后再通过测试集来评估模型的性能。
由于官方提供的数据已经划分好训练集和测试集，我们现在需要在原始训练集中划分出训练集和验证集，这里是70%划分为训练集，30%划分为验证集。
那究竟依据什么特性进行划分呢？划分数据集需注意时间性、地域性、层次性（stratifiedKFold）。在做本地数据集划分的时候需要基于用户进行划分，也就是要保证划分前后的数据是满足独立同分布的。另外，由于提供的是一周的数据，时间序列特性不是很明显，所以没有按时间线对数据进行划分

def splitTrainTest(dataProcessed,percent=0.7): 
    splitnum=int(len(dataProcessed.index)* percent) #分割点：70%
    dataProcessed.sort_values(by="usertag") #按照'usertafe'进行排序
    dataProcessed.to_csv(r'F:\solo\processed.csv',sep=',',index=False)
    #前70%行生成训练集
    dataProcessed.iloc[:splitnum,].to_csv(r'F:\solo\processed_Train.csv', sep=',', index=False)
    #后30%行生成验证集
    dataProcessed.iloc[splitnum:, ].to_csv(r'F:\solo\processed_Test.csv', sep=',', index=False)
splitTrainTest(df_new,percent=0.7)

五、建模分析
对于一个分类问题，一般经常使用的模型有逻辑回归、随机森林、xgboost。在正常的情况下，xgboost会比随机森林效果更好，但是如果数据的噪声比较大的话，也会出现随机森林的效果更好的情况。为了比较不同模型在这个分类问题中的性能表现，这里使用了三个模型分别训练和评估。
导入包，使用sklearn库完成建模分析。

from sklearn.metrics import precision_recall_curve
from sklearn.metrics import accuracy_score
from sklearn import metrics
from sklearn import cross_validation
from sklearn.model_selection import GridSearchCV
from sklearn.feature_selection import SelectFromModel

导入处理后的数据集，并删除usertag标签。

train=open(r'F:\solo\processed_Train.csv')
test=open(r'F:\solo\processed_Test.csv')
trainData = pd.read_csv(train,sep=',').drop(["usertag"],axis=1)
testData = pd.read_csv(test,sep=',').drop(["usertag"],axis=1)

从训练集和测试集中分别提取特征和目标变量label，训练模型后，用测试集评估模型的性能。

train_X = trainData.iloc[:,1:]  # 特征从第1列开始选
train_Y = trainData.iloc[:,0]  # 第0列是label
test_X = testData.iloc[:,1:]
test_Y = testData.iloc[:,0]

1、逻辑回归模型

1）导入模型

from sklearn import linear_model
from sklearn.linear_model import LogisticRegression

（2）模型性能评估
输出准确率accuracy、AUC面积以及精确度precision≥0.97条件下的最大召回率recall。

lr = LogisticRegression()
lr.fit(train_X,train_Y)  # 训练模型
test_pred_lr = lr.predict_proba(test_X)[:,1]  # 预测为1的可能性
fpr_lr,tpr_lr,threshold = metrics.roc_curve(test_Y,test_pred_lr)
auc = metrics.auc(fpr_lr,tpr_lr)
score = metrics.accuracy_score(test_Y,lr.predict(test_X))  # 输入真实值和预测值
print([score,auc])  # 准确率、AUC面积
precision_lr, recall_lr, thresholds = precision_recall_curve(test_Y, test_pred_lr)
pr_lr = pd.DataFrame({"precision": precision_lr, "recall": recall_lr})
prc_lr = pr_lr[pr_lr.precision >= 0.97].recall.max()
print(prc_lr)  # 精确度≥0.97条件下的最大召回率

逻辑回归模型输出

逻辑回归模型过于简单，预测准确率比较低，在precision≥0.97的情况下，最大recall仅为0.0001。
2、随机森林模型

1）导入随机森林分类器

from sklearn.ensemble import RandomForestClassifier

（2）模型性能评估
输出准确率accuracy、AUC面积以及精确度precision≥0.97条件下的最大召回率recall。

rfc = RandomForestClassifier(n_estimators=200) #迭代200次
rfc.fit(train_X,train_Y)  # 训练模型
test_pred_rfc = rfc.predict_proba(test_X)[:,1]  # 预测为1的可能性
fpr_rfc,tpr_rfc,thre_rfchold = metrics.roc_curve(test_Y,test_pred_rfc)
auc = metrics.auc(fpr_rfc,tpr_rfc)
score = metrics.accuracy_score(test_Y,rfc.predict(test_X))  # 输入真实值和预测值
print([score,auc])  # 准确率、AUC面积
precision_rfc, recall_rfc, thresholds = precision_recall_curve(test_Y, test_pred_rfc)
pr_rfc = pd.DataFrame({"precision": precision_rfc, "recall": recall_rfc})
prc_rfc = pr_rfc[pr_rfc.precision >= 0.97].recall.max()
print(prc_rfc)  # 精确度≥0.97条件下的最大召回率

随机森林输出

对于这个项目，随机森林模型表现较好，迭代200次以后模型准确率0.900，在precision≥0.97的情况下，最大recall已经可以达到0.623
3）特征重要性
使用feature_importance方法，可以得到特征的重要性排序。当然，还可以使用plot_importance方法，默认的importance_type=“weight”，将其设置为“gain”，可以得到和feature_importance方法相同的结果。

#特征重要性
importance = rfc.feature_importances_
indices = np.argsort(importance)[::-1]  # np.argsort()返回数值升序排列的索引，[::-1]表示倒序
features = train_X.columns
label = []
for f in range(train_X.shape[1]):
    print("%2d) %3d %20s (%.4f)" %(f+1,indices[f],features[indices[f]], importance[indices[f]]))
    label.append(features[indices[f]])
# 作图
plt.figure(figsize=(8,13))
plt.title('Feature importance')
plt.barh(y=range(train_X.shape[1]),width=importance[indices],color='blue')
plt.yticks(range(train_X.shape[1]),label)
plt.show()

特征重要性排序

在排名前15个特征中
用户相关的指标：年访问次数、一年内距上次访问时长、访问时间点、用户转化率、一年内距离上次下单时长、提前预定时间、客户价值。
酒店相关的指标：24小时内已访问酒店商务属性指数均值、24小时历史浏览次数最多酒店历史独立访客数、24小时内已经访问酒店可订最低价均值、24小时历史浏览酒店历史独立访客户均值、24小时内已访问次数最多酒店可订最低价
城市相关的指标：昨日访问当前城市同入住日期的app uv数字、昨日提交当前城市同入住日期的app订单数
3、xgboost模型

1）导入分类器

#导入xgboost分类器
import xgboost as xgb
from xgboost.sklearn import XGBClassifier

2）模型调参
使用GridSearchCV（网格搜索）的方法调节xgboost模型的参数，主要的影响参数有树的最大深度、最小叶子节点样本权重和、惩罚项系数gamma、使用数据占比、使用特征占比。这里分步调节，分别代入param_test1，2，3来寻找最优参数。

param_test1 = {
#首要的就是调整树的深度、以及每个叶子节点的个数
'max_depth': range(3, 10, 2),
'min_child_weight': range(1, 6, 2)}

param_test2 = {
#步长
'gamma': [i / 10.0 for i in range(0, 5)]}

param_test3 = {
#colsample_bytree每棵树随机采样的列数占比
#subsample 样本随机采样的比例
'subsample': [i / 10.0 for i in range(6, 10)],
'colsample_bytree': [i / 10.0 for i in range(6, 10)]}

gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=5,
min_child_weight=1, gamma=0, subsample=0.8,  colsample_bytree=0.8,
objective= 'binary:logistic',scale_pos_weight=1, seed=27),
param_grid = param_test3,   scoring='roc_auc',n_jobs=1,iid=False, cv=5)
gsearch1.fit(train_X ,train_Y )
means = gsearch1.cv_results_['mean_test_score']
params = gsearch1.cv_results_['params']
print(means, params)
# 模型最好的分数、模型最好的参数、模型最好的评估器
print(gsearch1.best_score_ ,gsearch1.best_params_,gsearch1.best_estimator_)

（3）模型性能评估
使用上一步找到的最优参数组合，代入模型进行训练和评估。输出准确率accuracy、AUC面积以及精确度precision≥0.97条件下的最大召回率recall。

# 使用上一步找到的最优参数组合，代入模型进行训练和评估
model = XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
               colsample_bytree=0.8, gamma=0, learning_rate=0.1, max_delta_step=0,
               max_depth=9, min_child_weight=1, missing=None, n_estimators=1000,
               objective='binary:logistic', random_state=0,reg_alpha=0, 
               reg_lambda=1, scale_pos_weight=1, seed=27, silent=True,
               subsample=0.8)

model.fit(train_X ,train_Y)  # 训练模型
test_pred_xgb = model.predict_proba(test_X)[:,1]  # 预测为1的可能性
fpr_xgb,tpr_xgb,threshold = metrics.roc_curve(test_Y,test_pred_xgb)
auc = metrics.auc(fpr_xgb,tpr_xgb)
score = metrics.accuracy_score(test_Y,model.predict(test_X))  # 输入真实值和预测值
print([score,auc])  # 准确率、AUC面积
precision_xgb, recall_xgb, thresholds = precision_recall_curve(test_Y, test_pred_xgb)
pr_xgb = pd.DataFrame({"precision": precision_xgb, "recall": recall_xgb})
prc_xgb = pr_xgb[pr_xgb.precision >= 0.97].recall.max()
print(prc_xgb)  # 精确度≥0.97条件下的最大召回率

得到的模型准确率0.898，在precision≥0.97的情况下，最大recall可以达到0.527。

xgboost模型最大召回率

（4）特征重要性
从xgboost模型也可以得到影响用户流失的特征，按照重要性排序，排名前10的特征有：
24小时内是否访问订单填写页、提前预订时间、用户转化率、近7天用户历史订单数、用户消费能力指数、用户决策习惯、用户年订单数、访问时间点、用户星级偏好、年访问次数等。
使用随机森林模型和xgboost模型得到的在top10特征差异较大，重合的特征只有3个：访问时间点、年访问次数、用户转化率。

#特征重要性
importance = model.feature_importances_
indices = np.argsort(importance)[::-1]  # np.argsort()返回数值升序排列的索引，[::-1]表示倒序
features = train_X.columns
label = []
for f in range(train_X.shape[1]):
    print("%2d) %3d %20s (%.4f)" %(f+1,indices[f],features[indices[f]], importance[indices[f]]))
    label.append(features[indices[f]])
# 作图
plt.figure(figsize=(8,13))
plt.title('Feature importance')
plt.barh(y=range(train_X.shape[1]),width=importance[indices],color='blue')
plt.yticks(range(train_X.shape[1]),label)
plt.show()

xgboost特征重要性

4、ROC曲线和PR曲线
接下来看下随机森林和xgboost模型的ROC曲线和PR曲线，综合比较模型性能。

ROC曲线

PR曲线

这两个模型的ROC曲线和PR曲线差异不大，总体而言随机森林模型比xgboost模型表现好。从评定标准来看，随机森林的召回率（0.623）比xgboost模型召回率（0.527)高一些。认为可能是因为数据缺失较多，造成了噪音比较大。

六、总结

1、特征工程
缺失值和异常值处理是关键，根据数据和模型选择是否需要独热编码和标准化，按照业务经验合理构造衍生特征和聚类特征。筛选特征的方法有很多种，比如方差、卡方值、相关系数等，这里用了树模型的特征重要性。特征工程决定了机器学习效果的上限，模型优化只能无限接近这个上限。

2、模型对比结果
使用逻辑回归、随机森林和xgboost三种模型做对比分析，按照评定标准，在精确度≥0.97的条件下，随机森林模型的性能最优，召回率可以达到0.636。该模型可以直接上线用于用户流失预测。

3、影响用户流失的关键因素
从模型表现上看，随机森林效果最优。根据特征重要性排序，提取影响用户流失的最关键因素。其中用户相关的指标有：年访问次数、访问时间点、一年内距上次访问时长、用户转化率、一年内距离上次下单时长。酒店相关的指标有：24小时内已访问酒店商务属性指数均值、24小时内已访问酒店可订最低价均值、24小时历史浏览次数最多酒店历史uv、24小时内已访问次数最多酒店可订最低价、24小时历史浏览酒店历史uv均值。城市相关的指标：昨日提交当前城市同入住日期的app订单数、昨日访问当前城市同入住日期的app uv数。

代码附件
提取码：k88c