背景

目前两种主流的算法在在线学习推荐系统中被广泛的应用，包括以GBDT为主的tree-model，以及NN模型（wide and deep、deepfm等）。但是目前这两种学习方法都有各自无法解决的困难。
首先GBDT在处理密集的连续型数值特征中表现出非常好的学习性能和效果，但是GBDT不能进行在线学习也不能很好的处理大量的稀疏特征，因为GBDT通常需要训练全量的数据而不能进行局部的更新，而且大量的稀疏特征会带来过拟合和空间爆炸的风险。，
其次NN能进行在线学习做到按batch进行更新，也能通过embeding的手段很好的处理大量的稀疏特征，但是在处理连续性特征的能力上却远远不如GBDT。
尽管已经有很多研究将这两种方法整合，尝试去融合两者的优点，但是却仍然达不到。

相关工作

就像我们之前提到的，我们现在将GBDT和NN广泛的应用于在线推荐系统中。下面我们首先回顾一下现在很多将GBDT和NN结合起来去解决他们各自缺点，融合他们优点的一些相关工作。并且基于之前的经验去构建一个有效的在线学习的模型。
我们之前提到过，GBDT用于在线学习主要是会存在两个问题，一个是tree model的不可拆分性，导致tree model不能局部更新，而是需要经过大量的离线数据的训练。第二个是GBDT不能非常有效的处理稀疏型的类别特征。基于这两个缺点，我们先回顾一下大家为了解决这个问题所做的一些工作。
1.有一部分研究尝试用流式的数据来训练tree model，但是这种方式只能用在单个tree model和并行的tree model适应，对于gbdt这种boosting的模型就不太适用了。而且这种模型抛弃掉了历史的数据、只用更新的数据会有偏。
2.对于gbdt不能处理稀疏的类别特征，因为不平衡的稀疏特征的分布的信息增益非常小。很多的研究尝试将稀疏的类别特征编码成连续性特征，但是这些编码方式会损失掉很多信息。还有一些方法会直接枚举左右的二进制分区，但是由于我们的特征稀疏，只有少量的数据是有值的，这样会导致过拟合。
3.还有很多方式将GBDT和NN结合，如Deepforest和mGBDT等，但是他们都不能解决这两个关键的问题。
对于NN的改造，现在很多的NN的方式都集中于解决大量的稀疏特征，而对于连续性的特征并没有很好的解决，FCNN为了解决这种办法才去全链接的方式来解决稠密连续特征。但是FCNN的性能不能满足要求。因为全连接会带来复杂的网络结构使得超参数的学习变得非常的复杂而且容易陷入局部最优解。另外的方式是直接把稠密的数值特征离散化，但是离散化带来的非线性特征使得模型变得复杂而且容易过拟合。
对于NN+gbdt组合的改造，主要有三类：
1.Tree-like NN
2.Convert Trees to NN
3.Combining NN and GBDT：直接将GBDT和NN组合，facebook直接将GBDT的叶子结点组合作为NN的类别特征喂给NN。Microsoft使用GBDT去训练NN的残差，但是这些都没有解决模型的线上问题

deepGBM结构

本文提出的deepGBM主要包含两部分：CatNN和GBDT2NN，结构示意图如下：

image.png

GBDT2NN for Dense Numerical Features

目前很多的研究方法只将GBDT的输出作为输入放入NN中去学习，这样会损失tree model的结构和很多的信息。本文我们用NN去模拟GBDT的结构。尽可能多的获取GBDT的结构信息。
1.特征选择。对于单颗树的蒸馏，我们可以将GBDT使用的特征的index输入到NN中，而不是将所有的特征都输入到NN中去。我们知道NN的模型是对所有的特征进行学习，没有特征选择的过程，而根据GBDT的原理，tree model的产生并不依赖于所有的特征，而是只选择部分的特征来做树的分裂和抉择。所以NN直接将用GBDT用到的特征来构建GBDT的结构。我们约定It 作为树t选择的特征。所以我们选择用x[It]作为NN模型的输入。
2.树结构。根据树模型的特征会将不同label的样本分到不同的结点中，而同一结点的label是一样的。所以我们使用以下公式来近似我们的这种树结构：

image.png

其中n是样本的数量，N()表示NN的网络结构，0表示网络的参数， Lt,i是当前结点输出的叶子结点的onehot的表示形式。L是损失函数，如logloss等。
3.树模型的输出。通过上述的学习，我们只需要知道我们的树结构（叶子结点index）到模型输出的映射关系就可以了。这种index到value的相关性的表示为pt = lt * qt，qt表示当前树的values。所以最终模型的输出可以表示为：

image.png

以上是我们对单颗树的蒸馏，然后GBDT作为一种boosting的算法，经常是有很多的树组成的，那么对于多棵树的蒸馏又是怎样的呢？
对于多棵树的蒸馏我们主要提出了两种方法。首先为了减少树结构的维度，我们可以将叶子结点由原先的onehot方式变为映射到一个低维的embedding空间中。

image.png

其中wt和w0都是trainable的参数，pt,i是leaf index对应的value值。Ht,i是我们输出的embedding值。L是和树训练时一样的loss函数。

所以现在模型的学习目标变为

image.png

其次我们将一定数量的tree进行组合，让他们共享embedding的参数，这样能减少模型训练的复杂度。组合的方式有很多种，你可以选择模型结构高度相似的trees进行组合，或随机组合。本文选择随机组合，将m颗树分为k组，那么每个组合包含m/k树。所以现在的embedding损失变为：

image.png

而模型的训练目标变为：

image.png

模型最后的输出为：

image.png

最后编辑于：2019.08.27 11:39:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

推荐领域-深度GBDT在在线学习中的应用

推荐领域-深度GBDT在在线学习中的应用

背景

相关工作

deepGBM结构

GBDT2NN for Dense Numerical Features

推荐阅读更多精彩内容