13. 经典模型融合办法:线性模型和树模型的组合拳
推荐系统在技术实现上一般划分为三个阶段:挖掘、召回、排序。挖掘的工作就是对用户和物品做非常深入的结构化分析,庖丁解牛一样,各个角度各个层面的特征都被呈现出来,并且建好索引,供召回阶段使用,大部分挖掘工作都是离线进行的。接下来就是召回,为什么会有召回?因为物品太多了,每次给一个用户计算推荐结果时,如果对全部物品挨个计算,那将是一场灾难,取而代之的是用一些手段从全量的物品中筛选出一部分比较靠谱的。最后就是排序,针对筛选出的一部分靠谱的做一个统一的论资排辈,最后这个统一的排序就是今天要讲的主题:融合。
下图表达的是,谁最好,最终的结果还需要预判断。
13.1 召回
召回阶段,其实就是各种简单的、复杂的推荐算法,比如说基于内容的推荐,会产生一些推荐结果,比如基于物品的协同过滤会产生一些结果,矩阵分解会产生一些结果,等等。于是问题就来了,这些不同算法产生的推荐分数,最后要一起排个先后,难道依据各自的分数吗?这样是不行的,为什么?有几个原因:
有些算法可能只给出结果,不给分数,比如用决策树产生一些推荐结果;每种算法给出结果时如果有分数,分数的范围不一定一样,所以不能互相比较,大家各自家庭背景不一样;使强行把所有分数都归一化,仍然不能互相比较,因为产生的机制不同,有的可能普遍偏高,有的可能普遍偏低。
既然来自各个地方的状元凑在一起,谁也不服谁,那只能再举行一次入学考试了,这个入学考试就是融合模型。也就是,不同算法只负责推举出候选结果,真正最终是否推荐给用户,由另一个统一的模型说了算,这个就叫做模型的融合。
一个典型的模型融合方案是:逻辑回归和梯度提升决策树组合,我可以给它取个名字叫做“辑度组合”。在推荐系统的模型融合阶段,就要以产品目标为导向。举个简单的例,信息流推荐,如果以提高 CTR(Click-Through-Rate 即点击通过率) 为目标,则融合模型就要把预估 CTR 作为本职工作,这个工作谁最能胜任,一直以来就是逻辑回归。
13.2 排序:逻辑回归LR和梯度提升决策树 GBDT
逻辑回归和梯度提升决策树,两者都是不太复杂的模型,结合两者,作为推荐系统多种模型融合的重排序环节,在推荐系统的实践中非常常见,虽然简单,但在实际应用中非常的有效。
13.2.1 逻辑回归
CTR 预估就是在推荐一个物品之前,预估一下用户点击它的概率有多大,再根据这个预估的点击率对物品排序输出。逻辑回归常常被选来执行这个任务,它的输出值范围就是 0 到 1 之间,刚好满足点击率预估的输出,这是一个基础。因为逻辑回归是广义线性模型,相比于传统线性模型,在线性模型基础上增加了 sigmoid 函数。
在对召回阶段不同算法给出的候选物品计算 CTR 预估时,需要两个东西:特征;权重。
第一个是特征,就是用量化、向量的方式把一个用户和一个物品的成对组合表示出来。这里说的量化方式包括两种:实数和布尔。实数好理解,比如一个用户的年龄,一个用户平均在某个品类上每个月的开销,类似等等,比如用户所在的省、市,当时是白天还是晚上,物品的每一个标签。用户和每一个候选物品都组一下 CP,然后以这种特征化的方式表达出来,就可以计算了,否则类别形式的字段不能直接参与计算。
第二个是权重,每个特征都有一个权重,决定哪些物品最终有机会能走到前台的选秀过程中。权重显然不能由愚蠢的人类来指定,需要模型自主从大量的历史数据中学习得到。
特征,它是一个向量,假如把它叫做 x;还有特征的权重,也是一个维度和特征一样的向量,假如叫做 w。我们通过对 x 和 w 做点积计算,就得到了一个传统线性模型的输出,再用 sigmoid 函数(sigmoid函数连续,光滑,严格单调,以(0,0.5)中心对称,是一个非常良好的阈值函数)对这个值做一个变换,就得到一个 0 到 1 之间的值,也就是预估的 CTR。这里所说的 sigmoid 函数长这个样子:
这个函数曲线如图所示。
其实要做的就是两件事了:搞特征、学权重。
比如说,有一天你发现“ID 为 233 的用户喜欢买各种钢笔”这个事实,它可以有两个特征组合出来,一个是“ID 为 233”,是一个布尔特征,另一个是“物品为钢笔”,也是一个布尔特征,显然构造一个新特征,叫做“ID 为 233 且物品为钢笔”。只有两个原始特征都取值为 1 时,这个构造出的特征才会取值为 1,这种组合就是非线性,逻辑回归本身对两个原始特征仅仅是线性加权,并不能很好地刻画这个组合关系,非得组合才能助它一臂之力。类似这样的工作,行话都叫做特征工程。
但是要注意,特征组合的难点在于:组合数目非常庞大,而且并不是所有组合都有效,只有少数组合有效。需要不断去弄脏双手,脚上沾泥地从数据中发现新的、有效的特征及特征组合。特征工程 + 线性模型,是模型融合、CTR 预估等居家旅行必备。
权重的学习主要看两个方面:损失函数的最小化,就是模型的偏差是否足够小;另一个就是模型的正则化,就是看模型的方差是否足够小;都是希望模型能够有足够的生命力,在实际生产线上最好能和实验阶段表现一样好。除了要学习出偏差和方差都较小的模型,还需要能够给工程上留出很多余地,具体来说就是两点,一个是希望越多权重为 0 越好,权重为 0 称之为稀疏,可以减小很多计算复杂度,并且模型更简单,方差那部分会可控。另一个是希望能够在线学习这些权重,用户源源不断贡献他们的行为,后台就会源源不断地更新权重,这样才能实现生命的大和谐。
要学习逻辑回归的权重,经典的方法如梯度下降一类,尤其是随机梯度下降,这在前面讲矩阵分解时已经提到过,可以实现在实时数据流情形下,更新逻辑回归的权重,每一个样本更新一次。但是随机梯度下降常被人诟病的是,它什么也表现不好,很难得到稀疏的模型,效果收敛得也很慢。后来 Google 在 2013 年 KDD 上发表了新的学习算法:FTRL,一种结合了 L1 正则和 L2 正则的在线优化算法,现在各家公司都采用了这个算法。
13.2.2 梯度提升决策树 GBDT
特征组合又能有效表达出数据中的非线性事实,但是发现成本却很高,需要花大量的人力和物力,那么有没有算法能够在这个阶段帮助到你呢?有!就是用树模型。
树模型,可以理解为不断对一个样本提问:是男用户吗?是的话再问:是北上广的用户吗?不是的话则可以问:是月收入小于 5000 的用户吗?这种不断提问按照层级组织起来,每次回答答案不同后再提出不同的问题,直到最后得出最终答案:用户对这个推荐会满意吗?这就是树模型。树模型天然就可以肩负起特征组合的任务,从第一个问题开始,也就是树的根节点,到最后得到答案,也就是叶子节点,这一条路径下来就是若干个特征的组合。
树模型最原始的是决策树,简称 DT,先驱们常常发现,把“多个表现”略好于“随机乱猜”的模型以某种方式集成在一起往往出奇效,所以就有树模型的集成模型。最常见的就是随机森林,简称 RF,和梯度提升决策树,简称 GBDT。一个是 GB,一个是 DT。GB 是得到集成模型的方案,沿着残差梯度下降的方向构建新的子模型,而 DT 就是指构建的子模型要用的决策树。
举个例子好了。假如这里有以下这么几条样本
现在有个任务是根据是否喜欢养花,喜欢打游戏,喜欢帽子来预测年龄,模型就是梯度提升决策树 GBDT。
树根节点为:是否喜欢养花,左分支就是不喜欢,被划分进去的样本有 13、14、15,35 这四个年龄;右边的就是样本 25、49、68、71、73。左边的样本均值是 19.25,右边的样本均值是 57.2。树根节点为:是否喜欢打游戏,左分支是不喜欢,被划分进去就有 49,71,73;右边是喜欢,被划分进去的样本有 13、14、15、25、35、68。左边的均值是 64,右边的均值是 28.3。树根节点为:是否喜欢帽子,左分支是不喜欢,被划分进去就有 14、15、49、71;右边是喜欢,右边是 13、25、35、68、73,左边均值是 37.25,右边是 42.8。叶子节点上都是被划分进去的样本年龄均值,也就是预测值。这里是看哪棵树让残差减小最多,分别拿三个方案去预测每个样本,统计累积的误差平方和,三个分别是 1993.55、2602、5007.95,于是显然第一棵树的预测结果较好,所以 GBDT 中第一棵树胜出。
接下来第二棵树如何生成呢?这里就体现出 GBDT 和其他提升算法的不同之处了,比如和 Ada boost 算法不同之处,GBDT 用上一棵树去预测所有样本,得到每一个样本的残差,下一棵树不是去拟合样本的目标值,而是去拟合上一棵树的残差。这里,就是去拟合下面这个表格。
新一轮构建树的过程以最后一列残差为目标。构建过程这里不再赘述,得到第二棵树。如此不断在上一次建树的残差基础上构建新树,直到满足条件后停止。在得到所有这些树后,真正使用时,是将它们的预测结果相加作为最终输出结果。
这里有三第三个,构建每一棵树时如果遇到实数值的特征,还需要将其分裂成若干区间,分裂指标有很多,可以参考 xgboost 中的计算分裂点收益,也可以参考决策树所用的信息增益。个问题:
第一个,既然是用来做回归的,上面这个例子也是回归问题,如何把它用来做分类呢?那就是把损失函数从上面的误差平方和换成适合分类的损失函数,例如对数损失函数。更新时按照梯度方向即可,上面的误差平方和的梯度就刚好是残差。对于 CTR 预估这样的二分类任务,可以将损失函数定义为:
第二个,通常还需要考虑防止过拟合,也就是损失函数汇总需要增加正则项,正则化的方法一般是:限定总的树个数、树的深度、以及叶子节点的权重大小。
第三个,构建每一棵树时如果遇到实数值的特征,还需要将其分裂成若干区间,分裂指标有很多,可以参考 xgboost 中的计算分裂点收益,也可以参考决策树所用的信息增益。
13.2.3 二者结合
前面介绍了逻辑回归 LR,以及剃度提升决策树 GBDT 的原理。实际上可以将两者结合在一起,用于做模型融合阶段的 CTR 预估。这是 Facebook 在其广告系统中使用的方法,其中 GBDT 的任务就是产生高阶特征组合。
具体的做法是:GBDT 产生了 N 棵树,一条样本来了后,在每一棵树上都会从根节点走到叶子节点,到了叶子节点后,就是 1 或者 0,点或者不变。把每一棵树的输出看成是一个组合特征,取值为 0 或者 1,一共 N 棵树就会产生 N 个新的特征,这 N 个新的特征作为输入进入 LR 模型,输出最终的结果。
每一条样本,样本内容一般是把用户、物品、场景三类特征拼接在一起,先经过 N 棵 GBDT 树各自预测一下,给出自己的 0 或者 1 的预测结果,接着,这个 N 个预测结果再作为一个向量送入逻辑回归中,产生最终的融合预估结果。另外,由于两者结合后用来做推荐系统的模型融合,所以也可以考虑在输入特征中加入各个召回模型产生的分数,也许会有用。
以上就是咱们的“辑度组合”原理,虽然简单,但在实际应用中非常的有效。
14. 特征工程组合
以上“辑度组合”的办法,可以对原始的特征做有效的组合(如下图)。但往下分析会有以下问题:
1.各种特征应该如何如何组合?
2.两两组合会导致特征维度灾难?
3.组合容易,但是组合后会不会变差(如稀疏了)?
上述公式和原始的(之前的LR逻辑回归)相比,就多出了后面公式,也需要学习的对应的Wij参数权重(很重要)。针对这个问题,就有了一个新的算法模型:因子分解机模型,也叫做FM,即 Factorization Machine。因子分解机也常常用来做模型融合。
14.1 FM模型原理
因为逻辑回归在做特征组合时样本稀疏,从而无法学到很多特征组合的权重,所以因子分解机的提出者就想,能不能对上面那个公式中的 wij 做解耦,让每一个特征学习一个隐因子向量出来。
任何两个特征不小心在实际使用时相遇了,需要组合,那么各自掏出自己随身携带的隐因子变量做一个向量点积,就是两者组合特征的权重了。
这个公式和前面特征组合的公式相比,不同之处就是原来有个 Wij,变成了这里的两个隐因子向量的点积(红色)。不要小看这个变化。它其实认为两个特征之间,即使没有共同出现在一条样本中,也是有间接联系的。比如说特征 A 和特征 B 曾在一些样本中一起出现过,特征 B 和特征 C 曾在一些样本中出现过,那么特征 A 和特征 C 无论是否在样本中一起出现过,仍然是有些联系的。
如果在实际预测 CTR 时,特征 A 和特征 C 真的在一起出现了,如果你用的是因子分解机模型,这时候你的预测程序就不慌不忙走向数据库,从中取出早已准备好的特征 A 和特征 C 的隐因子向量,拿出来做一个点积运算,就得到了两者组合的权重。(碉堡)
既然二阶特征组合可以学到隐因子向量,,那么三阶特征组合也可以加进来,四阶,五阶…?但是组合越多,计算复杂度就会陡增,所以一般在实际使用中,因子分解机就表演到二阶特征组合就 OK.
14.2 模型训练
因子分解机的参数学习并无特别之处,看目标函数,在这里是把它当作融合模型来看的,用来做 CTR 预估,因此预测目标是一个二分类,因子分解机的输出还需要经过 sigmoid 函数变换:
因此,损失目标函数也就是常用的 logistic loss:
对这个损失目标函数使用梯度下降或者随机梯度下降就可以得到模型的参数,和前面的方法没有区别。
注意损失函数实际上还需要加上正则项,之前总结过机器学习损失函数的两板斧,就是偏差和方差。
14.3 预测阶段
假如现在已经得到了因子分解机的模型参数,忍不住跃跃欲试想端着它冲上战场。
但是,因子分解机中二阶特征组合那一坨,在实际计算时,复杂度有点高,如果隐因子向量的维度是 k,特征维度是 n,那这个复杂度就是 O(kn2). (2是平方)
其中 n 方是特征要两两组合,k 是每次组合都要对 k 维向量计算点积。需要对此稍微做一下改造,改造过程如下。
看上去这个有点复杂,你如果不想理解也没关系,我们直接看怎么搞。
这就是因子分解机中,二阶组合部分的实际计算方法,现在这样做的复杂度只是 O(kn),原来的平方复杂度不见了。
14.4 其他模型一样套用
图中每一条样本都记录了用户对电影的评分,最右边的 y 是评分,也就是预测目标;
左边的特征有五种:用户 ID、当前评分的电影 ID、曾经评过的其他分、评分时间、上一次评分的电影。
现在我们来看因子分解机如何一网打尽其他模型(可以变形成其他模型)。
前面已经说了因子分解机可以实现带有特征组合的逻辑回归。现在假设图中的样本特征只留下用户 ID 和电影 ID,因子分解机模型就变成:
解释一下公式由来:用户 ID 和电影 ID,在一条样本中,各自都只有一个维度是 1,其他都是 0,所以在一阶部分就没有了求和符合,直接是 wu 和 wi,二阶部分特征乘积也只剩下了一个 1,其他都为 0 了。这不就是带有偏置信息的 SVD 吗?在 SVD 基础上把样本中的特征加上用户历史评过分的电影 ID,再求隐因子向量,这就是 SVD++ 呀!再加上时间信息,就变成了 time-SVD。
所以因子分解机是把我之前讲过的矩阵分解一网打尽了,顺便还干起了逻辑回归的工作,也正因如此,因子分解机常常用来做模型融合,在推荐系统的排序阶段肩负起对召回结果做重排序的任务。
14.5 Field-aware Factorization Machines (FFM)
在因子分解机基础上有没有需要改进的思路呢?
不但认为特征和特征之间潜藏着一些不可告人的关系,在推荐系统的排序阶段肩负起对召回结果做重排序的任务。
这个特征类型,就是某些特征实际上是来自数据的同一个字段,比如用户 ID,占据了很多维度,变成了很多特征,但他们都属于同一个类型,都叫“用户 ID”。对这个filed进行改进,就是FFM.
如果不理解,可以对比上下两个公式。因子分解机模型的样子是上面这样(之前因子分解机认为每个特征有一个隐因子向量,FFM 改进的是二阶组合那部分,改进的模型认为每个特征有 f 个隐因子向量,这里的 f 就是特征一共来自多少个字段(Field),二阶组合部分改进后如下)
FFM 模型也常用来做 CTR 预估。在 FM 和 FFM事件过程中,记得要对样本和特征都做归一化。
总结:因子分解机也算是矩阵分解算法的一种,因为它的学习结果也是隐因子向量,也是用过隐因子向量的点积代替原来的单个权重参数。由于不断提到特征组合的重要性,前有 GBDT,现有 FM,都是在特征组合上花功夫。纵观,机器学习套路:先特征工程,再召回,最后排序,优化组合。我们现在说的就是组合了。
15.深度和宽度兼具的融合模型 Wide and Deep
之前的内容要么往深了挖,要么往广了挖,现在google的tensorflow的开源框架,将传统的“宽模型”和新的“深模型”结合,非常有实用性,模型也容易很理解。
这个模型在线上效果还是不错的,以 GooglePlay 的App 推荐效果为例,用户安装表现良好,对照实验结果如图,可以看到,线上效果直接相对于对照组(纯线性模型 + 人工特征)有 3.9% 的提升,但是线下的 AUC 值提高并不明显。
下面分别从三个方面:广,深,广+深 来细说。
15.1 为什么要广?
融合排序,最常见的就是 CTR 预估,融合排序,最常见的就是 CTR 预估,然后再采用特征海洋战术,就是把几乎所有的精力都放在搞特征上:挖掘新特征、挖掘特征组合、寻找新的特征离散方法等等。这种简单模型加特征工程的做法好处多多:
1.线性模型简单,其训练和预测计算复杂度都相对低;2.工程师的精力可以集中在发掘新的有效特征上,俗称特征工程;3.工程师们可以并行化工作,各自挖掘特征;4.线性模型的可解释性相对非线性模型要好。
1.线性模型简单,其训练和预测计算复杂度都相对低;2.工程师的精力可以集中在发掘新的有效特征上,俗称特征工程;3.工程师们可以并行化工作,各自挖掘特征;4.线性模型的可解释性相对非线性模型要好。
1.线性模型简单,其训练和预测计算复杂度都相对低;2.工程师的精力可以集中在发掘新的有效特征上,俗称特征工程;3.工程师们可以并行化工作,各自挖掘特征;4.线性模型的可解释性相对非线性模型要好。
特征海洋战术让线性模型表现为一个很宽广(Wide)的模型,可以想象逻辑回归中那个特征向量在特征工程的加持下,越来越宽的样子。
15.2 为什么要深?
这些年,深度学习,神经网络突起,,战火自然也烧到了推荐系统领域,用深度神经网络来革“线性模型 + 特征工程”的命,也再自然不过。其最大好处就是“洞悉本质般的精深”,优秀的泛化性能,可以给推荐很多惊喜。
但是,深度模型的泛化强于线性模型,也会导致推荐有时候看上去像是“找不着北”,就是大家常常自问的那句话:“不知道这是怎么推出来的?”用行话说,就是可解释性不好。还是要两者合作,才能最大限度地发挥效果。
因此,Google 在 2016 年就发表了他们在 Google Play 应用商店上实践检验过的 CTR 预估方法:Wide & Deep 模型,让两者一起为用户们服务,这样就取得了良好效果。
15.3 Wide & Deep 模型
一个典型的推荐系统架构,其实很类似一个搜索引擎,搜索由检索和排序构成。推荐系统也有召回和排序两部构成,不过,推荐系统的检索过程并不一定有显式的检索语句,通常是拿着用户特征和场景特征去检索召回,其中用户特征也就是在前面的专栏中提到的用户画像。 示意图如下
首先使用用户特征和上下文场景特征从物品库中召回候选推荐结果,比如得到 100 个物品,然后用融合模型对这 100 个物品做最终排序,输出给用户展示。同时开始记录展示日志和用户行为日志,把收集到的日志和用户特征、上下文场景特征、物品特征拉平成为模型的训练数据,训练新的模型,再用于后面的推荐,如此周而复始。
深宽模型就是专门用于融合排序的,分成两部分来看。一部分是线性模型,一部分是深度非线性模型。整个示意图如下:
示意图有三部分。最左边是宽模型,中间是深宽模型,最右边是纯的的深度模型。
15.3.1 首先,线性模型部分,也就是“宽模型”,形式如下:
模型中的 X 是特征,W 是权重,b 是模型的偏置,也是线性模型的截距。线性模型中常用的特征构造手段就是特征交叉(例如:“性别 = 女 and 语言 = 英语” 就是由两个特征组合交叉而成,只有当“性别 = 女”取值为 1,并且“语言 = 英语”也取值为 1 时,这个交叉特征才会取值为 1。)线性模型的输出这里采用的 Logistic Regression。
15.3.2 其次,深度模型部分,其实就是一个前馈神经网络。深度模型对原始的高维稀疏类别型特征,先进行嵌入学习(先随机初始化嵌入向量,再直接扔到整个前馈网络中,用目标函数来优化学习),转换为稠密、低维的实值型向量,转换后的向量维度通常在 10-100 这个范围。
[知识点] 深度神经网络由输入层,隐藏层,输出层构成。那么和逻辑回归的区别在哪呢?可以认为逻辑回归是个残缺的神经网络,只有输入层和输出层,没有隐藏层。逻辑回归的输入层就是特征向量,原来我们熟悉的特征权重,就是神经网络的参数,存在于这个残缺的神经网络输入层和输出层的连线上,后面都可以这么理解,深度神经网络参数都在那些连线上。这个残缺神经网络的输出层做了两件事,这时特征值在经过连线送到输出层时已经乘以了连线上的参数,第一件事a就是把这些值加起来,第二件事b就是用 sigmoid函数变换一下。把逻辑回归当成一个残缺的神经网络理解后,再回头看真正的神经网络,这里多了一个隐藏层(隐藏层神经元就是输入输出层),就刚刚做前面说的ab两件事。只不过一个隐藏层可以有多个神经元在干这两件事,所谓深度学习,就是有不止一层的隐藏层存在,就是深度神经网络。层数越多,非线性越强,模型越复杂。[知识点]
回到深度模型表示(上诉),其中 l 表示第 l 个隐藏层,f 是激活函数,通常选用 ReLU,也叫整流线性单元,为什么选用 ReLU 而不是 sigmoid 函数,原因主要是 sigmoid 函数在误差反向传播时梯度容易饱和。不明白,看下面图:
紫色是 sigmoid 函数,就是逻辑回归用的那个,输入值是任意范围,输出是 0 到 1 之间;
草绿色是反正切函数,和 sigmoid 函数样子很像,输入值是任意范围,输出是 -1 到 1 之间;
红色就是 ReLU 函数,当输入小于 0 时,输出为 0,当输入大于 0 时,输出等于输入;
蓝色是 softplus 函数,是一条渐近线,输入趋向于负无穷时,输出趋于 0,输入趋于正无穷时,输出趋向于等于输入。
15.3.3 最后,看两者的融合,即深宽模型。
深模型和宽模型,由逻辑回归作为最终输出单元,深模型最后一个隐藏层作为特征接入逻辑回归,宽模型的原始特征与之一起接入逻辑回归,然后训练参数。参数学习就是通常说的端到端,把深模型和宽模型以及最终融合的权重放在一个训练流程中,直接对目标函数负责,不存在分阶段训练。它与机器学习中的集成学习方法有所区别,集成学习的子模型是独立训练的,只在融合阶段才会学习权重,这里是整体。把深宽模型的最后输出过程表示成公式就是:
其中,Y 是我们要预估的行为,二值变量,如购买,或点击,Google 的应用场景为“是否安装 APP”。
15.3.4 几点技巧
这个深宽模型已经在 TensorFlow 中有开源实现,具体落地时整个数据流如下图所示。
整个流程分为三大块:
数据生成:每一条曝光日志就生成一条样本,标签就是 1/0,安装了 App 就是 1,否则就是 0。将字符串形式的特征映射为 ID,需要用一个阈值过滤掉那些出现样本较少的特征。对连续值做归一化。
模型训练:每个类别特征 embedding 成一个 32 维向量;所有类别特征的 embedding 变量连成一个 1200 维度左右的大向量;1200 维度向量就送进三层以 ReLU 作为激活函数的隐藏层;最终从 Logistic Regreesion 输出。宽模型侧就是传统的做法:特征交叉组合。当新的样本集合到来时,先是用上一次的模型来初始化模型参数,然后在此基础上进行训练。新模型上线前,会先跑一遍,看看会不会出事,算是一个冒烟测试。
模型应用:
模型验证后,就发布到模型服务器。模型服务,每次网络请求输入的是来自召回模块的 App 候选列表以及用户特征,再对输入的每个 App 进行评分。评分就是用我们的“深宽模型”计算,再按照计算的 CTR 从高到低排序。为了让每次请求响应时间在 10ms 量级,每次并不是串行地对每个候选 App 计算,而是多线程并行,将候选 App 分成若干并行批量计算。
正因为有这些小的优化点,GooglePlay 的 App 推荐服务,就是在峰值时每秒计算千万级的 App。
总结:
这个模型适合高维稀疏特征的推荐场景,稀疏特征的可解释性加上深度模型的泛化性能,双剑合璧。为了提高模型的训练效率,每一次并不从头开始训练,而是用上一次模型参数来初始化当前模型的参数。将类别型特征先做嵌入学习,再将嵌入稠密向量送入深度模型中。