阿里CAN：特征交互的新思路

导读：全文约3300字，分为以下5个部分，请按需阅读。
I. 研究背景：特征交互与笛卡尔积
II. CAN的实现：模型结构，实现细节，多阶优化以及各模块间的独立性
III. 实验结论：与各类state-of-the-art模型的比较
IV. 模型线上部署：serving时遇到的问题和解决方案
V. 总结
文中图片均来自于论文原文。

本篇文章介绍了阿里妈妈定向广告团队的最新作品：Co-Action Net(以下简称CAN)。CAN提出了一种全新的特征交互思路，将待交互的特征（用户侧和商品侧特征）分别作为DNN的输入和权重，用DNN的输出作为特征交互的结果。CAN在提升了特征交互的表达能力同时，降低了传统的笛卡尔积交叉所需要的计算复杂度。
论文地址：https://arxiv.org/abs/2011.05625.
作者的知乎专栏：https://zhuanlan.zhihu.com/p/287898562

I. 研究背景

在CTR预估任务中，特征间的交互一直是业界研究的热点。由于DNN以一个隐式的方式来学习输入特征，很难单纯依靠DNN来从庞大的稀疏特征集中学习到有效的特征交互，因此许多工作都在特征工程中采用了了手动特征交互，FM, FNN, PNN, DCN和DeepFM等都从不同的方面阐述了这一点，感兴趣的同学可以参考笔者之前的文章: 《从FM到DeepFM：浅谈推荐系统中的模型演化》。

在推荐系统模型的构建中，特征工程占有十分重要的地位。在海量的输入特征中，用户行为(user behaviors)和推荐商品(recommended item)两者的交互可以准确地建模用户兴趣，论文作者将这种交互特征统一命名为co-action. 如图1所示：A和B代表模型的输入，Target可以为ctr的预估值。一般来说，可以由DNN来学习A和B之间的关系。但如果我们在输入端就手动将A、B进行交互，学习的难度会大大降低。

图1

对于特征交互，最基本的方式就是做笛卡尔积(Cartesian Product)。在tensorflow中，这个操作就是cross column[1]. 对于特征A和B，笛卡尔积将两者组合成一个新特征(A, B)；改变A或B的值，就会得到一个全新的特征。这种方式可以刻画出A、B间的所有组合。在训练样本充足，不考虑性能的情况下，笛卡尔积是最好的特征交互方式。但笛卡尔积有两个缺点：

样本不足：推荐模型处理的大多都是稀疏的高维特征，样本空间可以到十亿甚至级别，特定样本组合的出现频率很低，会导致笛卡尔积的学习变得困难；
存储空间太大：假设A和B特征空间的大小是M, N，笛卡尔积所需要的存储空间就是M * N，需要存储一个庞大的参数矩阵。实际应用中会采用hash的方式来降低参数空间，但这样又牺牲了笛卡尔积的精确度。

II. Co-Action Network

顾名思义，CAN的目的在于建模不同特征之间的Co-Action，可以理解为一种新的特征交互方式。简单来说，该论文实现了一个pluggable的CAN网络单元，将待交互的两类特征分别作为CAN网络的输入和权重，网络的输出作为特征交互的结果。

2.1 Co-Action Net的结构

图2

图2展示了CAN的基本结构。输入特征可以分为用户行为序列(user behavior sequence)，候选商品(target item)，用户画像特征(user age 等)和其他特征。其中user sequence、target item和other feature通过embedding层后输入到DIEN网络结构。对于CAN部分，user sequence和target item的embedding被用作CAN的输入和权重参数，最后输出的结果sum pooling起来，与DIEN的输出concat在一起过后面的DNN部分。下面重点介绍一下整个网络结构中的关键：Co-Action Unit.

CAN的整体实现逻辑还是比较简单的。将CAN中的全连接网络记为 $MLP_{can}$ ，候选商品特征 $P_{item} \in R^{M\rm xT}$ 作为 $MLP_{can}$ 网络的weight和bias，而用户行为序列特征 $P_{user} \in R^{M\rm xD}$ 则是 $MLP_{can}$ 网络的输入。这里 $M$ 是所有unique ID的个数，即item ID的参数空间； $D$ 和 $T$ 是embedding size，且 $D$ < $T$ . 在广告系统中，与用户点击过的商品相比，target item的个数较少，因此用 $P_{item}$ 来作为 $MLP_{can}$ 的参数。由于 $P_{item}$ 包含了 $MLP_{can}$ 多层的参数，因此其维度需要大于 $P_{user}$ ，即 $D$ < $T$ . $P_{item}$ 通过split和reshape操作转化为weight和bias参数，这一过程可以表述如下：

weight展开

其中

w^{(i)}

和

b^{(i)}

表示

MLP_{CAN}

第

i

层的参数。至此，整个CAN的计算过程可以表示为：

CAN计算过程

对于序列特征

P_{user}

，论文中是将CAN作用于序列中的每一个item, 再进行sum pooling操作。

与其他特征交互方式相比，CAN有以下几个优点：

相比于笛卡尔积，CAN结构显著减小了参数量。
考虑两个维度均为[N, D]的特征，其中N为unique IDs的数目，D是embedding 维度。使用笛卡尔积的参数量为 $O(N^2 \rm x D)$ ，而CAN的参数量则为 $O(N \rm x T)$ ，T为 $MLP_{CAN}$ 的参数量，通常远小于N.
对于未出现的新特征组合，CAN有更好的泛化性，而笛卡尔积由于是一种硬编码，没有这种能力。
举个例子，现有笛卡尔积的组合特征(A, B)；对于取值A=A1, B=B1和A=A1, B=B2，对应的笛卡尔积(A1, B1)和(A1, B2)之间是相互独立的，无法共享A=A1这一参数。而CAN中利用DNN权重和输入独立的结构，可以建模到上述的这种信息。
论文引入了一个multi-order enhancement机制来保证高阶的特征交互操作。

2.2 Multi-order Enhancement

前述的CAN结构只能显示地建模一阶特征交互。对于更高阶的情况，可以通过高阶输入来实现，即

其中c是特征交互的阶数。

2.3 Multi-level Independence

论文中引入了3种做法来保证CAN学习的独立性。

Parameters Independence：necessary
即CAN的参数（ $P_{user}$ 和 $P_{item}$ 的embedding）和主网络的embedding互相独立。
Combination Independence: recommended
我们知道， $P_{user}$ 和 $P_{item}$ 是由不同的特征concat而来，如item id, category id, 等等。假设 $P_{user}$ 和 $P_{item}$ 分别包含 $N$ 和 $M$ 个特征。理想情况下， $P_{user}$ 种的某个特征应该和 $P_{item}$ 种的所有特征进行交互（反之亦然），这样才能充分地对特征交互进行建模。但在公式(3)和(4)种可以看到， $P_{item}$ 被split后分别作为 $MLP_{CAN}$ 不同层的参数，这样就会有信息的丢失（笛卡尔积就没有这个问题）。作者采用的方式是将 $P_{user}$ 和 $P_{item}$ 分别扩大 $M$ 和 $N$ 倍：

其中 $x$ 是 $MLP_{can}$ 的输入维度，这样就可以保证所有特征都能够显式地在 $MLP_{can}$ 中得到交互。
Orders Independence: optional
对应2.2节中的多阶CAN，即不同阶数之间的 $MLP_{can}$ 参数是不同的。要注意的是如果采用了orders independence，式(9)中的近似公式就不成立了。

III 实验结论

3.1 CAN对比其他特征交互模型

由Table 2可以看出，CAN在两个实验数据集上的AUC指标均优于PNN，NCF[2]，DeepFM；除此之外，笛卡尔积(Cartesian)作为最基础的特征交互手段，其结果是优于PNN，NCF和DeepFM的。但CAN的实验结果甚至比笛卡尔积还要好，这里的原因我想有两点：

如2.1节末尾介绍，采用DNN的结构来对不同特征进行交互，其表达能力和泛化性比笛卡尔积更强；
如2.2节所述，CAN可以对高阶特征交互进行建模，弥补了笛卡尔积的短板。

3.2 对于新特征组合的泛化性

为了验证CAN的泛化性，作者将test数据集中的那些在训练集中出现过的特征组合都删除，构造了一个冷数据测试集，该测试集中所有的特征组合都是模型之前没有见过的。实验结果如Table 5 所示：

可以看出，NCF和DeepFM的结果要优于笛卡尔积。与Table 2中的结论相比，证明笛卡尔积的泛化性确实存在问题；同时，CAN的AUC最高，也证明了CAN结构的泛化性明显强于笛卡尔积以及其他的特征交互方式。

IV 模型部署上线

笔者认为这是本论文最精华的部分之一。作者在本节中详细论述了CAN模型在部署到阿里巴巴展示广告系统时遇到的一些困难和解决方案，对复杂ctr预估模型的落地有很大的指导意义。

特征交互，是在原始特征的基础上对特征对(feature pair)进行额外的组合，势必会引入额外的存储和计算开销。我们知道，CTR模型的大部分参数都集中在embedding部分，而笛卡尔积会让embedding大小线性增加。对于两个维度（此处维度指unique IDs的数目）为M和N的特征，笛卡尔积需要引入一个(M x N, embedding_size)大小的embedding矩阵；除此之外，新增的embedding也会引入更多的lookup操作，严重影响模型的响应时间，latency增大。作者提到即使采用了IDs frequency filtering（个人理解是根据ID出现的频率，过滤掉一部分低频ID来减小参数量，即低频过滤）也无法缓解。

对于CAN模型，虽然参数大大减小，但以上问题还是会影响到模型的部署。论文中使用了6个ad侧特征和15个用户侧特征进行交互，理论上这样会引入15 x 6 = 90个特征组合。而用户侧特征多为用户的行为序列，普遍长度都超过100，会带来更大的负担。

为了解决以上问题，论文中采用了以下方案：

序列截断
顾名思义，对用户侧的特征进行截断，只保留最近的用户行为，减轻模型压力。序列截断是解决此类性能问题的常规手段。这样做会带来20%的QPS提升，同时AUC下跌0.1%，在可接受范围内。同时也说明，CAN带来的特征交互收益，主要集中在用户最近的行为中；很久之前的行为对模型效果影响不大。
减小特征组合数
如前文所述，所有特征组合一共有90种，但这里面会包含一些重复的，或者没有实际意义的特征组合。一般来说，相同属性的特征交互建模效果最好。因此实验只保留了诸如[item_id, item_click_history]、[category_id, category_click_history]这类组合，删掉了很多无用或重复的特征。
这里将特征组合数从90减小到了48，提高了30%的QPS。可见再智能的神经网络，也离不开手动特征工程。
矩阵计算性能优化
论文中重新设计了部分matrix multiplication的计算方式，获得了QPS的进一步提升。具体细节没有介绍，期待开源代码中可以看到相关实现。

V. 总结

特征间的交互对ctr预估模型具有重要的意义。本论文阐述了笛卡尔积和一些常用模型结构（FM，PNN，DeepFM等）的不足，提出了一种新型网络CAN来建模Feature Co-Action。CAN用DNN的输入和权重来建模特征交互，既解决了笛卡尔积的空间复杂度和泛化性问题，又能够获得较好的特征交互效果（体现在模型auc的指标上）。同时，引入了多阶输入(multiorder enhancement )和模块间的独立性(multi-level independence)使CAN的功能更加完备。最后介绍了模型上线遇到的困难和解决方案，对大型ctr预估模型的部署有很大的借鉴意义。

参考资料
[1] https://tensorflow.google.cn/tutorials/structured_data/feature_columns?hl=en
[2] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. 2017. Neural collaborative filtering. In Proceedings of the 26th international conference on world wide web. 173–182.
[3] https://zhuanlan.zhihu.com/p/287898562

最后编辑于：2020.12.15 08:47:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342