推荐系统论文阅读（三十九)-京东：特征维度内关系建模下的Embedding学习(DRM)

论文：

论文地址：https://dl.acm.org/doi/pdf/10.1145/3340531.3412108

论文题目：《Dimension Relation Modeling for Click-Through Rate Prediction》

前面我们介绍的文章基本上都跟业务强相关，比如一些tag-embedding相关的文章，这次介绍的这篇论文就没那么浓厚的业务色彩了，完全是基于model以及特征之间的创新，就跟我们之前提到的阿里的那篇CAN一样，我们一起来看看这篇CIKM的短论文吧。

一、背景

在ctr预估任务中，输入的特征一般是一些高维稀疏特征，比如像user_id,item_id,对于这些离散特征，原始的做法是转换成one-hot的形式，然后通过lr得到ctr的预估结果。但是，对于维度很高的离散特征来说，one-hot就有一个致命的缺点，那就是稀疏性，因为其中只有一个dimension为1，其他的都为0。所以现在一般的做法都是用embedding技术来做，把高维离散特征映射成低维稠密特征。

这篇论文觉得，如果直接使用embedding技术来进行映射会有几个不足之处：

1.没有考虑特征的dimension之间的关系，不同field下同一个dimension对于模型整体的贡献是不一样的

2.忽略了特征直接的交互关系，这一点比较好理解，也就是我们所说的特征交叉，这个交叉的关系是体现在fields维度上的，而1中的关系是体现在dimension关系上的

你现在看这两句话可能会觉得有点难以理解，后面我们带着文中的公式来看这两句话，相信你很快就能理解了。

二、模型结构

2.1 DRM(Dimension Relation Module)

我们先看一下DRM的总体模型结构，左边的V是我们的原始特征，一共有m个field，每个field的维度为d，前面我们说到了1的不足之处是没考虑不同field中dimension的重要性，所以DRM主要是通过一个attention结构来计算出每一个dimension对于模型的重要性。

dimension重要性矩阵S的计算如下：

其中U是v的转置，两个W是映射参数矩阵，维度都是m×m，计算得到的S的维度为d×d，Sji表示第i个维度对第j个维度的影响。

计算出dimension重要性矩阵S后，我们就可以把这个分数加权到到V中了：

这里为什么不直接对V进行加权，理由是，通过一个映射矩阵，让模型能够更好的优化，其中W的维度为m×m，

按道理说，我们利用S对V加权后就结束了，但是本文认为，加权后的E不一定是比原来的V更好，所以这里采用了残差的思想，保留了原始的V：

计算出来的E的维度为m×d

2.2 FED(Field-wise Module)

FED网络结构是针对原始embedding不足之处2的设计，我们之前特征之间是有关系的，比如gender和age之间的关系建模很大程度上能反映出一个user的偏好，比如一个20岁的女生，她的兴趣点已经能够模糊的得到了。

FED主要是通过attention的方式来计算重要性的，跟DRM不同的地方在于，DRM计算的是dimension上的重要性，FED计算的是field上的重要性，你可以理解为，为每个field计算出一个重要性，下面我们来看看FED的计算方式吧。

field特征重要性H的计算方式如下：

其中E是DRM输出的结果，两个W是映射矩阵，最后计算出来的H的维度为m×m，Hji表示第i个field对第j个field的影响。

同样的，使用一个残差来保留原始的E：

其中W的维度为d×d，计算出来的F的维度为m×d。

2.3 模型是输出和损失函数

这里，我们再得到最后的y之前，有三个主要的输入：

1. $x_{dim}$ 这个就是DRM的输出，维度为dm，也就是flatten之后的了，

2. $x_{field}$ 这个是FED的输出，维度为dm，也就是flatten之后的了

3. $x_{element}$ 这个是DNN的输出，维度为l，在我的视角里，其实这里也是残差的思想，保留了特征的原始输入，保证模型的下限

损失函数当然就是我们熟悉的交叉熵：

三、实验结果

可以看到，在没有DRM，只使用DNN的情况下，模型的效果是不如加了DRM的，在使用FED后，跟deepfm以及xDeepfm这种模型比也有这么好的auc，而且模型整体的参数量并不是很大，感觉可以在ctr预估中去尝试使用下，代码应该不难复现。

最后编辑于：2021.01.25 10:49:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345