2019-CCF乘用车细分市场销量预测-Rank19

1. Abstract

在市场整体趋势逐步改变的环境下，比赛方希望能在销量数据自身趋势规律的基础上，找到消费者在互联网上的行为数据与销量之间的相关性，更准确有效地预测销量趋势。这个题目也就是时序预测销量，国庆期间无意看到就solo参赛，最后复赛B榜排名19，一共2999比赛队伍。这里必须要感谢两位大神的帮助@鱼遇雨欲语与余 @叫我月月鸟开源了重要的特征，使得小弟能够玩得尽兴。该比赛当中鄙人主要使用了lightgbm模型融合xgboost模型，并未使用特殊的后处理方式或者其他的规则进行处理。看到各位的不同骚操作，鄙人绞尽脑汁也想不到，心里暗暗佩服。当中自认为比赛当中最有效的是挖掘时序特征，而如何挖掘更有效的时序特征变得十分重要。通过这次比赛，我认为时序特征主要有以下几种值得大家考虑：1. 平移时序，2. 滑窗时序， 3. 累计时序，4. 趋势时序，5. 占比时序。这几个种特征可谓是众多时序题目提分的关键所在。而模型方面鄙人真的经验尚浅，只能通过调参来提一下分，深度学习在这里貌似派不上什么用场。

2. Feature Introduction and analysis

说到时序特征那么我们必然先看我们的salesVolume的走势是怎么样吧。下图为同一车型在不同地区的平均销量趋势，由于文章篇幅问题，这里仅截取了部分出来

salesVolume16,17年的走向变化

从图中我们基本可以看出很多重要的信息

二月份基本上是全年的销量最差的一个月（这个也是测试集当中其中一个要预测的月份）
16年的销量趋势与17年的销量趋势走向基本一致（周期性与趋势性）

2.1 滑窗时序特征 vs 平移时序特征

于是我打算从滑窗时序特征和平移时序特征下手（平移时序特征主要靠渔佬的开源代码）。而滑窗特征如下：

def get_rolling_feat(df_, range_list, target_col="label"):
    df = df_.copy()
    df['model_adcode'] = df['adcode'] + df['model']
    rolling_feat = []
    for i in range_list:
        df["rolling_mean_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).mean().shift(1)).reset_index()[target_col]
        rolling_feat.append("rolling_mean_{}_{}".format(i, target_col))
        df["rolling_median_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).median().shift(1)).reset_index()[target_col]
        rolling_feat.append("rolling_median_{}_{}".format(i, target_col))
        df["rolling_std_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).std().shift(1)).reset_index()[target_col]
        rolling_feat.append("rolling_std_{}_{}".format(i, target_col))
        df["rolling_min_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).min().shift(1)).reset_index()[target_col]
        rolling_feat.append("rolling_min_{}_{}".format(i, target_col))
        df["rolling_max_{}_{}".format(i, target_col)] = df.groupby("model_adcode").apply(lambda x: x[target_col].rolling(i).max().shift(1)).reset_index()[target_col]
        rolling_feat.append("rolling_max_{}_{}".format(i, target_col))
    return df, rolling_feat

这两种特征进行线上线下对比发现滑窗时序特征效果弱于平移特征。于是我对比了两者预测后的结果，发现加入滑窗特征的结果均值偏大。因为滑动窗口更多是取前几个月的均值，中值，这些值相对于平移特征更加平滑，反而获取不到每一次销量的变化趋势。如测试集若要拿到去年同期销量滑窗特征，那么其窗口大小为12，那么使用平均销量则会将同期值平滑掉，而且两种特征的相似度比较高，特征冗余性比较强。到最后最后我并没有加入滑窗特征，也有可能是我不太会用的原因。

2.2 趋势增长特征

另外一种特征就是月月鸟提供的趋势增长特征，这个特征更加显式地将增长特征加入到模型当中。具体代码可以参考月月鸟大大的blog。该特征为上个月的环比日平均销量增长率或者较前两个月的日平均销量增长率。但这个特征有一个问题，假如上个月（30天）的销量为5，而这个月（31天）销量为100。那么环比日均销量增长率为18.3548。其实这种值假如不小心真的会把它当成异常值处理掉，毕竟销量变化十分剧烈。面对这种剧烈的变化，模型或多或少会有影响，那么大家又是如何处理数据偏差大的情况呢？这里想给大家留一个问号。

unstack_data = {}
def getHistoryIncrease(df_, increase_feat, step=1, wind=1, col='salesVolume'):
    res = []
    feature_name = '{}_last{}_{}_increase'.format(col, step, wind)
    print("generate :", feature_name)
    if col not in unstack_data.keys():
        for i in df_['model_adcode'].unique():
            msk = (df_['model_adcode'] == i)
            df = df_[msk].copy().reset_index(drop=True)
            df = df[['mt', col]].set_index('mt').T
            df['model_adcode'] = i
            res.append(df)
        res = pd.concat(res).reset_index(drop=True)
        unstack_data[col] = res.copy()

    res = unstack_data[col].copy()
    res_ = res.copy()
    for i in range(step + wind + 1, 29):
        res_[i] = (res[i - step] - res[i - (step + wind)]) / res[i - (step + wind)]

    for i in range(1, step + wind + 1):
        res_[i] = np.NaN
    res = res_.set_index(["model_adcode"]).stack().reset_index()
    increase_feat.append(feature_name)
    res.rename(columns={0: feature_name}, inplace=True)
    df_ = pd.merge(df_, res, on=['model_adcode', 'mt'], how='left')

    return df_

def getHistoryIncrease_(df_, increase_feat, step=1, wind=1, col='salesVolume'):
    feature_name = '{}_last{}_{}_increase'.format(col, step, wind)
    increase_feat.append(feature_name)
    print("generate :", feature_name)
    tmp_df = df_.copy()
    tmp_df["shift_model_adcode_{}_{}".format(col, step)] = tmp_df.sort_values("mt").groupby("model_adcode")[col].shift(step)
    tmp_df["shift_model_adcode_{}_{}".format(col, step + wind)] = tmp_df.sort_values("mt").groupby("model_adcode")[col].shift(step + wind)
    tmp_df[feature_name] = (tmp_df["shift_model_adcode_{}_{}".format(col, step)] - tmp_df["shift_model_adcode_{}_{}".format(col, step + wind)]) / tmp_df["shift_model_adcode_{}_{}".format(col, step + wind)]
    df_ = pd.merge(df_, tmp_df[["model_adcode", "mt", feature_name]], on=['model_adcode', 'mt'], how='left')
    return df_

def get_history_increase_feature(df_, month):
    increase_feat = []
    month -= 24
    base_step = month - 1 if month - 1 > 0 else 1

    df_ = getHistoryIncrease(df_, increase_feat, step=base_step, col="per_salesVolume_day")
    df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 1, col="per_salesVolume_day")
    df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 2, col="per_salesVolume_day")
    df_ = getHistoryIncrease(df_, increase_feat, step=base_step, wind=2, col="per_salesVolume_day")
    df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 1, wind=2, col="per_salesVolume_day")
    df_ = getHistoryIncrease(df_, increase_feat, step=base_step + 2, wind=2, col="per_salesVolume_day")
    df_ = getHistoryIncrease(df_, increase_feat, step=base_step, wind=12, col="per_salesVolume_day")

    df_ = getHistoryIncrease(df_, increase_feat, step=month, col='per_popularity_day')
    df_ = getHistoryIncrease(df_, increase_feat, step=month + 1, col='per_popularity_day')
    df_ = getHistoryIncrease(df_, increase_feat, step=month + 2, col='per_popularity_day')
    df_ = getHistoryIncrease(df_, increase_feat, step=month, wind=2, col='per_popularity_day')
    df_ = getHistoryIncrease(df_, increase_feat, step=month + 1, wind=2, col='per_popularity_day')
    df_ = getHistoryIncrease(df_, increase_feat, step=month + 2, wind=2, col='per_popularity_day')

    return df_, increase_feat

2.3 组合交叉特征

假如仅仅使用鱼佬和月月鸟大大提供的特征还是不够的，因为鱼佬给的特征仅仅focus在model_adcode上的时序特征。那么我拍脑袋想到交叉属性的salesVolume，如bodyType_adcode也是一样可以做到同样的效果吧。

df["bodyType_adcode"] = df["adcode"] + df["bodyType"]
groupby_df = df.groupby(["bodyType_adcode", "mt"]).agg({"salesVolume": "mean"})
groupby_df = groupby_df.reset_index().rename(columns={"salesVolume": "mean_salesVolume"})
# TODO: bodyType_adcode是否设置start_shift_i
for i in range(1, 13):
    column_name = "shift_bodyType_adcode_mean_salesVolume_{}".format(i)
    groupby_df[column_name] = groupby_df.groupby("bodyType_adcode").mean_salesVolume.shift(i)
    stat_feat.append(column_name)
df = pd.merge(df, groupby_df, on=["bodyType_adcode", "mt"], how="left")

除此之外，我为了提高时序特征的多样性对不同的属性进行交叉计算出该属性下不同取值的平均月销量占比：

# 计算不同地区不同车型的销售占比和搜索量占比
data["month_sum_salesVolume"] = data.groupby("mt").salesVolume.transform("sum")
data["month_prop_salesVolume"] = data.salesVolume / data.month_sum_salesVolume
data["month_sum_popularity"] = data.groupby("mt").popularity.transform("sum")
data["month_prop_popularity"] = data.popularity / data.month_sum_popularity
# 计算同一地区不同车型的销售占比和搜索量占比
data["month_adcode_sum_salesVolume"] = data.groupby(["mt", "adcode"]).salesVolume.transform("sum")
data["month_adcode_prop_salesVolume"] = data.salesVolume / data.month_adcode_sum_salesVolume
data["month_adcode_sum_popularity"] = data.groupby(["mt", "adcode"]).popularity.transform("sum")
data["month_adcode_prop_popularity"] = data.popularity / data.month_adcode_sum_popularity
# 计算同一地区同一车身不同车型的销售占比和搜索量占比
data["month_adcode_bodyType_sum_salesVolume"] = data.groupby(["mt", "adcode", "bodyType"]).salesVolume.transform("sum")
data["month_adcode_bodyType_prop_salesVolume"] = data.salesVolume / data.month_adcode_bodyType_sum_salesVolume
data["month_adcode_bodyType_sum_popularity"] = data.groupby(["mt", "adcode", "bodyType"]).popularity.transform("sum")
data["month_adcode_bodyType_prop_popularity"] = data.popularity / data.month_adcode_bodyType_sum_popularity
# 同一车型在不同地区销售占比
data["month_model_sum_salesVolume"] = data.groupby(["mt", "model"]).salesVolume.transform("sum")
data["month_model_prop_salesVolume"] = data.salesVolume / data.month_model_sum_salesVolume
data["month_model_sum_popularity"] = data.groupby(["mt", "model"]).popularity.transform("sum")
data["month_model_prop_popularity"] = data.popularity / data.month_model_sum_popularity

这些占比特征同样可以像model_adcode的月销量一样做平移特征和趋势增量特征。它可以看作是对销量特征的另一种表达方式，增加特征的多样性。

我们利用上个月的销量*上年去年的销量增长率+上个月的销量作为预估值，这个可以作为特征训练。

def expect_values(df_, target_col="salesVolume", fill_12mt=False):
    df = df_.copy()
    df["shift_model_adcode_mt_{}_-1".format(target_col)] = df.groupby("model_adcode")[target_col].shift(-1)
    df["shift_model_adcode_mt_{}_increase_rate".format(target_col)] = (df["shift_model_adcode_mt_{}_-1".format(target_col)] - df[target_col]) / df[target_col]
    df["increase_rate_period"] = df.groupby("model_adcode")["shift_model_adcode_mt_{}_increase_rate".format(target_col)].shift(12)
    # TODO: 暂时使用24个月后的增长率填充空值
    if fill_12mt:
        df.loc[(df.mt == 12), "increase_rate_period"] = df["model_adcode"].map(df[df.mt == 24].set_index("model_adcode")["increase_rate_period"])
    df["expected_{}".format(target_col)] = df[target_col] + df[target_col] * df.increase_rate_period
    df["expected_{}".format(target_col)] = df.groupby("model_adcode")["expected_{}".format(target_col)].shift(1)
    return df

上述的占比特征等都可以运用求算预估值expect_values方法去做一个简单的特征工程。

2.4 用户行为数据

"carCommentVolum", "newsReplyVolum"这两个属性其实是比赛方比较希望我们去挖掘的特征，着眼一看貌似是特别好的特征，后来发现这些特征都并没有特别趋势性而且也跟汽车月销量无太多线性相关性。

carCommentVolum 16年，17年变化

newsReplyVolum 16年，17年变化

carCommentVolum和newsReplyVolum的趋势和波动与model_adcode的salesVolume两者不同，而且carCommentVolum和newsReplyVolum仅仅针对车型，目标salesVolume是具体到地区的车型销量，粒度相对比较粗。因此对于同一车型不同地区的销量没有太大的区分度。我也是在这里之后没有太多尝试，也想不到好办法。这里留个坑，看前排大佬还有什么好法子去充分利用好这个特征。

累积特征：

def cumsum_SalesVolume(df_):
    df = df_.copy()
    df["model_adcode_salesVolumn_cumsum"] = df.groupby("model_adcode").salesVolume.transform("cumsum")
    df["bodyType_adcode_salesVolume_cumsum"] = df.groupby(["bodyType", "adcode"]).salesVolume.transform("cumsum")
    df["adcode_salesVolumn_cumsum"] = df.groupby("adcode").salesVolume.transform("cumsum")
    df["model_salesVolumn_cumsum"] = df.groupby("model").salesVolume.transform("cumsum")
    df["model_adcode_salesVolumn_cumsum_mean"] = df["model_adcode_salesVolumn_cumsum"] / df["mt"]
    df["model_adcode_salesVolumn_cumsum"] = df.groupby("model_adcode").model_adcode_salesVolumn_cumsum.shift(1)
    df["bodyType_adcode_salesVolume_cumsum"] = df.groupby(["bodyType", "adcode"]).bodyType_adcode_salesVolume_cumsum.shift(1)
    df["adcode_salesVolumn_cumsum"] = df.groupby("adcode").adcode_salesVolumn_cumsum.shift(1)
    df["model_salesVolumn_cumsum"] = df.groupby("model").model_salesVolumn_cumsum.shift(1)
    return df, ["model_adcode_salesVolumn_cumsum", "adcode_salesVolumn_cumsum", "model_salesVolumn_cumsum"]

2.5 预测结果的分布情况

对于回归问题，我们一定要留意一下预测测试集的目标分布区间范围情况。除了留意valid data的评估值之外，还要留意预估结果它的均值和方差等等。其实很多线下线上不一致的原因都在预测结果的数值分布出现了严重的偏差。就想之前说的加入滑动窗口特征导致整体均值都变大，这有可能是因为滑动特征将就近的月份销量变重要了，而1-4月的销量偏小的特性没有捕抓到。

3. Conclusion

总得来说特征主要围绕一下几个方面进行构造：

ccf乘用车细分市场销量预测-特征工程

其中数据target离群值多或者说波动性大也是问题所在，有些销量忽高忽低，也没有什么特别周期性。我们可以通过折线图找出一些波动性较强的值，或者通过散点图可以找到一些离群点。

相对于16年，17年的汽车销量变化趋势存在忽高忽低的情况.png

不同车型的销量散点图

因此认为这些都是数据出错的问题，当然渔佬也有提及到。但是自己尝试将销量平滑化的办法，但是效果不佳。之后期待渔佬以及其他大佬的之后发布的文章讲述一下怎么处理这些异常值。

另外一个难题就是线下线上效果不一致问题，导致不能有效找出的强特征。这也是我这场比赛的问题所在。但有一点需要注意的就是local cv的飙高有可能是因为特征存在时间穿越或者过度拟合valid data，因为线上的预测数据是1-4月，而本地是9-12月。

多从不同交叉组合挖掘强特，特征才具有多样性。综上所述，小弟的特征工程相对比较简单，也没有什么特别的规则和模型，期待后续大佬结束决赛后，一起围观开源代码及其内容。

上面的特征比较简单，也没有什么特别的规则和模型，最后使用lgbm和xgb平均融合提交。经过这次比赛我进一步加深对时序题的理解，同时也深知自己的特征工程能力还是太弱了，平时需要多搞eda来提高数据嗅觉。除此之外，自己以后也要广泛交友，寻找志同道合的朋友一起打比赛，毕竟自己一个人打压力大，局限性也大。

以上为鄙人的拙见，最后留下几个我的问题跟大家探讨一下，欢迎大家拍砖：
1. 对于离群或者波动性较大的数据，除了处理丢弃、均值填充、时序平滑化之外还有什么好办法呢？这场比赛大家又是怎么做呢？
2. 面对时序题目，大家一般的校验方法是怎么做呢？是截取最后若干时间段作为valid set还是n-fold去做呢？
3. 对于"carCommentVolum", "newsReplyVolum"这两个属性，大家能通过它来挖掘什么有意思的特征呢？

感谢各位大佬的阅读，点赞和评论。晚安，早唞。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343