1. Abstract
在市场整体趋势逐步改变的环境下,比赛方希望能在销量数据自身趋势规律的基础上,找到消费者在互联网上的行为数据与销量之间的相关性,更准确有效地预测销量趋势。这个题目也就是时序预测销量,国庆期间无意看到就solo参赛,最后复赛B榜排名19,一共2999比赛队伍。这里必须要感谢两位大神的帮助@鱼遇雨欲语与余 @叫我月月鸟开源了重要的特征,使得小弟能够玩得尽兴。 该比赛当中鄙人主要使用了lightgbm模型融合xgboost模型,并未使用特殊的后处理方式或者其他的规则进行处理。看到各位的不同骚操作,鄙人绞尽脑汁也想不到,心里暗暗佩服。当中自认为比赛当中最有效的是挖掘时序特征,而如何挖掘更有效的时序特征变得十分重要。通过这次比赛,我认为时序特征主要有以下几种值得大家考虑:1. 平移时序,2. 滑窗时序, 3. 累计时序,4. 趋势时序,5. 占比时序。这几个种特征可谓是众多时序题目提分的关键所在。而模型方面鄙人真的经验尚浅,只能通过调参来提一下分,深度学习在这里貌似派不上什么用场。
2. Feature Introduction and analysis
说到时序特征那么我们必然先看我们的salesVolume的走势是怎么样吧。下图为同一车型在不同地区的平均销量趋势,由于文章篇幅问题,这里仅截取了部分出来
从图中我们基本可以看出很多重要的信息
- 二月份基本上是全年的销量最差的一个月(这个也是测试集当中其中一个要预测的月份)
- 16年的销量趋势与17年的销量趋势走向基本一致(周期性与趋势性)
2.1 滑窗时序特征 vs 平移时序特征
于是我打算从滑窗时序特征和平移时序特征下手(平移时序特征主要靠渔佬的开源代码)。而滑窗特征如下:
def get_rolling_feat(df_, range_list, target_col="label"):
df = df_.copy()
df['model_adcode'] = df['adcode'] + df['model']
rolling_feat = []
for i in range_list:
df["rolling_mean_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).mean().shift(1)).reset_index()[target_col]
rolling_feat.append("rolling_mean_{}_{}".format(i, target_col))
df["rolling_median_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).median().shift(1)).reset_index()[target_col]
rolling_feat.append("rolling_median_{}_{}".format(i, target_col))
df["rolling_std_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).std().shift(1)).reset_index()[target_col]
rolling_feat.append("rolling_std_{}_{}".format(i, target_col))
df["rolling_min_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).min().shift(1)).reset_index()[target_col]
rolling_feat.append("rolling_min_{}_{}".format(i, target_col))
df["rolling_max_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).max().shift(1)).reset_index()[target_col]
rolling_feat.append("rolling_max_{}_{}".format(i, target_col))
return df, rolling_feat
这两种特征进行线上线下对比发现滑窗时序特征效果弱于平移特征。于是我对比了两者预测后的结果,发现加入滑窗特征的结果均值偏大。因为滑动窗口更多是取前几个月的均值,中值,这些值相对于平移特征更加平滑,反而获取不到每一次销量的变化趋势。如测试集若要拿到去年同期销量滑窗特征,那么其窗口大小为12,那么使用平均销量则会将同期值平滑掉,而且两种特征的相似度比较高,特征冗余性比较强。到最后最后我并没有加入滑窗特征,也有可能是我不太会用的原因。
2.2 趋势增长特征
另外一种特征就是月月鸟提供的趋势增长特征,这个特征更加显式地将增长特征加入到模型当中。具体代码可以参考月月鸟大大的blog。该特征为上个月的环比日平均销量增长率或者较前两个月的日平均销量增长率。但这个特征有一个问题,假如上个月(30天)的销量为5,而这个月(31天)销量为100。那么环比日均销量增长率为18.3548。其实这种值假如不小心真的会把它当成异常值处理掉,毕竟销量变化十分剧烈。面对这种剧烈的变化,模型或多或少会有影响,那么大家又是如何处理数据偏差大的情况呢?这里想给大家留一个问号。
unstack_data = {}
def getHistoryIncrease(df_, increase_feat, step=1, wind=1, col='salesVolume'):
res = []
feature_name = '{}_last{}_{}_increase'.format(col, step, wind)
print("generate :", feature_name)
if col not in unstack_data.keys():
for i in df_['model_adcode'].unique():
msk = (df_['model_adcode'] == i)
df = df_[msk].copy().reset_index(drop=True)
df = df[['mt', col]].set_index('mt').T
df['model_adcode'] = i
res.append(df)
res = pd.concat(res).reset_index(drop=True)
unstack_data[col] = res.copy()
res = unstack_data[col].copy()
res_ = res.copy()
for i in range(step + wind + 1, 29):
res_[i] = (res[i - step] - res[i - (step + wind)]) / res[i - (step + wind)]
for i in range(1, step + wind + 1):
res_[i] = np.NaN
res = res_.set_index(["model_adcode"]).stack().reset_index()
increase_feat.append(feature_name)
res.rename(columns={0: feature_name}, inplace=True)
df_ = pd.merge(df_, res, on=['model_adcode', 'mt'], how='left')
return df_
def getHistoryIncrease_(df_, increase_feat, step=1, wind=1, col='salesVolume'):
feature_name = '{}_last{}_{}_increase'.format(col, step, wind)
increase_feat.append(feature_name)
print("generate :", feature_name)
tmp_df = df_.copy()
tmp_df["shift_model_adcode_{}_{}".format(col, step)] = tmp_df.sort_values("mt").groupby("model_adcode")[col].shift(step)
tmp_df["shift_model_adcode_{}_{}".format(col, step + wind)] = tmp_df.sort_values("mt").groupby("model_adcode")[col].shift(step + wind)
tmp_df[feature_name] = (tmp_df["shift_model_adcode_{}_{}".format(col, step)] - tmp_df["shift_model_adcode_{}_{}".format(col, step + wind)]) / tmp_df["shift_model_adcode_{}_{}".format(col, step + wind)]
df_ = pd.merge(df_, tmp_df[["model_adcode", "mt", feature_name]], on=['model_adcode', 'mt'], how='left')
return df_
def get_history_increase_feature(df_, month):
increase_feat = []
month -= 24
base_step = month - 1 if month - 1 > 0 else 1
df_ = getHistoryIncrease(df_, increase_feat, step=base_step, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 1, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 2, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=base_step, wind=2, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 1, wind=2, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 2, wind=2, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=base_step, wind=12, col="per_salesVolume_day")
df_ = getHistoryIncrease(df_, increase_feat, step=month, col='per_popularity_day')
df_ = getHistoryIncrease(df_, increase_feat, step=month + 1, col='per_popularity_day')
df_ = getHistoryIncrease(df_, increase_feat, step=month + 2, col='per_popularity_day')
df_ = getHistoryIncrease(df_, increase_feat, step=month, wind=2, col='per_popularity_day')
df_ = getHistoryIncrease(df_, increase_feat, step=month + 1, wind=2, col='per_popularity_day')
df_ = getHistoryIncrease(df_, increase_feat, step=month + 2, wind=2, col='per_popularity_day')
return df_, increase_feat
2.3 组合交叉特征
假如仅仅使用鱼佬和月月鸟大大提供的特征还是不够的,因为鱼佬给的特征仅仅focus在model_adcode上的时序特征。那么我拍脑袋想到交叉属性的salesVolume,如bodyType_adcode也是一样可以做到同样的效果吧。
df["bodyType_adcode"] = df["adcode"] + df["bodyType"]
groupby_df = df.groupby(["bodyType_adcode", "mt"]).agg({"salesVolume": "mean"})
groupby_df = groupby_df.reset_index().rename(columns={"salesVolume": "mean_salesVolume"})
# TODO: bodyType_adcode是否设置start_shift_i
for i in range(1, 13):
column_name = "shift_bodyType_adcode_mean_salesVolume_{}".format(i)
groupby_df[column_name] = groupby_df.groupby("bodyType_adcode").mean_salesVolume.shift(i)
stat_feat.append(column_name)
df = pd.merge(df, groupby_df, on=["bodyType_adcode", "mt"], how="left")
除此之外,我为了提高时序特征的多样性对不同的属性进行交叉计算出该属性下不同取值的平均月销量占比:
# 计算不同地区不同车型的销售占比和搜索量占比
data["month_sum_salesVolume"] = data.groupby("mt").salesVolume.transform("sum")
data["month_prop_salesVolume"] = data.salesVolume / data.month_sum_salesVolume
data["month_sum_popularity"] = data.groupby("mt").popularity.transform("sum")
data["month_prop_popularity"] = data.popularity / data.month_sum_popularity
# 计算同一地区不同车型的销售占比和搜索量占比
data["month_adcode_sum_salesVolume"] = data.groupby(["mt", "adcode"]).salesVolume.transform("sum")
data["month_adcode_prop_salesVolume"] = data.salesVolume / data.month_adcode_sum_salesVolume
data["month_adcode_sum_popularity"] = data.groupby(["mt", "adcode"]).popularity.transform("sum")
data["month_adcode_prop_popularity"] = data.popularity / data.month_adcode_sum_popularity
# 计算同一地区同一车身不同车型的销售占比和搜索量占比
data["month_adcode_bodyType_sum_salesVolume"] = data.groupby(["mt", "adcode", "bodyType"]).salesVolume.transform("sum")
data["month_adcode_bodyType_prop_salesVolume"] = data.salesVolume / data.month_adcode_bodyType_sum_salesVolume
data["month_adcode_bodyType_sum_popularity"] = data.groupby(["mt", "adcode", "bodyType"]).popularity.transform("sum")
data["month_adcode_bodyType_prop_popularity"] = data.popularity / data.month_adcode_bodyType_sum_popularity
# 同一车型在不同地区销售占比
data["month_model_sum_salesVolume"] = data.groupby(["mt", "model"]).salesVolume.transform("sum")
data["month_model_prop_salesVolume"] = data.salesVolume / data.month_model_sum_salesVolume
data["month_model_sum_popularity"] = data.groupby(["mt", "model"]).popularity.transform("sum")
data["month_model_prop_popularity"] = data.popularity / data.month_model_sum_popularity
这些占比特征同样可以像model_adcode的月销量一样做平移特征和趋势增量特征。它可以看作是对销量特征的另一种表达方式,增加特征的多样性。
我们利用上个月的销量*上年去年的销量增长率+上个月的销量作为预估值,这个可以作为特征训练。
def expect_values(df_, target_col="salesVolume", fill_12mt=False):
df = df_.copy()
df["shift_model_adcode_mt_{}_-1".format(target_col)] = df.groupby("model_adcode")[target_col].shift(-1)
df["shift_model_adcode_mt_{}_increase_rate".format(target_col)] = (df["shift_model_adcode_mt_{}_-1".format(target_col)] - df[target_col]) / df[target_col]
df["increase_rate_period"] = df.groupby("model_adcode")["shift_model_adcode_mt_{}_increase_rate".format(target_col)].shift(12)
# TODO: 暂时使用24个月后的增长率填充空值
if fill_12mt:
df.loc[(df.mt == 12), "increase_rate_period"] = df["model_adcode"].map(df[df.mt == 24].set_index("model_adcode")["increase_rate_period"])
df["expected_{}".format(target_col)] = df[target_col] + df[target_col] * df.increase_rate_period
df["expected_{}".format(target_col)] = df.groupby("model_adcode")["expected_{}".format(target_col)].shift(1)
return df
上述的占比特征等都可以运用求算预估值expect_values
方法去做一个简单的特征工程。
2.4 用户行为数据
"carCommentVolum", "newsReplyVolum"这两个属性其实是比赛方比较希望我们去挖掘的特征,着眼一看貌似是特别好的特征,后来发现这些特征都并没有特别趋势性而且也跟汽车月销量无太多线性相关性。
carCommentVolum和newsReplyVolum的趋势和波动与model_adcode的salesVolume两者不同,而且carCommentVolum和newsReplyVolum仅仅针对车型,目标salesVolume是具体到地区的车型销量,粒度相对比较粗。因此对于同一车型不同地区的销量没有太大的区分度。我也是在这里之后没有太多尝试,也想不到好办法。这里留个坑,看前排大佬还有什么好法子去充分利用好这个特征。
累积特征:
def cumsum_SalesVolume(df_):
df = df_.copy()
df["model_adcode_salesVolumn_cumsum"] = df.groupby("model_adcode").salesVolume.transform("cumsum")
df["bodyType_adcode_salesVolume_cumsum"] = df.groupby(["bodyType", "adcode"]).salesVolume.transform("cumsum")
df["adcode_salesVolumn_cumsum"] = df.groupby("adcode").salesVolume.transform("cumsum")
df["model_salesVolumn_cumsum"] = df.groupby("model").salesVolume.transform("cumsum")
df["model_adcode_salesVolumn_cumsum_mean"] = df["model_adcode_salesVolumn_cumsum"] / df["mt"]
df["model_adcode_salesVolumn_cumsum"] = df.groupby("model_adcode").model_adcode_salesVolumn_cumsum.shift(1)
df["bodyType_adcode_salesVolume_cumsum"] = df.groupby(["bodyType", "adcode"]).bodyType_adcode_salesVolume_cumsum.shift(1)
df["adcode_salesVolumn_cumsum"] = df.groupby("adcode").adcode_salesVolumn_cumsum.shift(1)
df["model_salesVolumn_cumsum"] = df.groupby("model").model_salesVolumn_cumsum.shift(1)
return df, ["model_adcode_salesVolumn_cumsum", "adcode_salesVolumn_cumsum", "model_salesVolumn_cumsum"]
2.5 预测结果的分布情况
对于回归问题,我们一定要留意一下预测测试集的目标分布区间范围情况。除了留意valid data的评估值之外,还要留意预估结果它的均值和方差等等。其实很多线下线上不一致的原因都在预测结果的数值分布出现了严重的偏差。就想之前说的加入滑动窗口特征导致整体均值都变大,这有可能是因为滑动特征将就近的月份销量变重要了,而1-4月的销量偏小的特性没有捕抓到。
3. Conclusion
总得来说特征主要围绕一下几个方面进行构造:
其中数据target离群值多或者说波动性大也是问题所在,有些销量忽高忽低,也没有什么特别周期性。我们可以通过折线图找出一些波动性较强的值,或者通过散点图可以找到一些离群点。
因此认为这些都是数据出错的问题,当然渔佬也有提及到。但是自己尝试将销量平滑化的办法,但是效果不佳。之后期待渔佬以及其他大佬的之后发布的文章讲述一下怎么处理这些异常值。
另外一个难题就是线下线上效果不一致问题,导致不能有效找出的强特征。这也是我这场比赛的问题所在。但有一点需要注意的就是local cv的飙高有可能是因为特征存在时间穿越或者过度拟合valid data,因为线上的预测数据是1-4月,而本地是9-12月。
多从不同交叉组合挖掘强特,特征才具有多样性。综上所述,小弟的特征工程相对比较简单,也没有什么特别的规则和模型,期待后续大佬结束决赛后,一起围观开源代码及其内容。
上面的特征比较简单,也没有什么特别的规则和模型,最后使用lgbm和xgb平均融合提交。经过这次比赛我进一步加深对时序题的理解,同时也深知自己的特征工程能力还是太弱了,平时需要多搞eda来提高数据嗅觉。除此之外,自己以后也要广泛交友,寻找志同道合的朋友一起打比赛,毕竟自己一个人打压力大,局限性也大。
以上为鄙人的拙见,最后留下几个我的问题跟大家探讨一下,欢迎大家拍砖:
1. 对于离群或者波动性较大的数据,除了处理丢弃、均值填充、时序平滑化之外还有什么好办法呢?这场比赛大家又是怎么做呢?
2. 面对时序题目,大家一般的校验方法是怎么做呢?是截取最后若干时间段作为valid set还是n-fold去做呢?
3. 对于"carCommentVolum", "newsReplyVolum"这两个属性,大家能通过它来挖掘什么有意思的特征呢?
感谢各位大佬的阅读,点赞和评论。晚安,早唞。