论文笔记之Deep Interest Network for Click-Through Rate Prediction

Deep Interest Network for Click-Through Rate Prediction

本文指出,在基于embedding和MLP的模型中,用户的各种兴趣被压缩在一个固定长度的向量中,限制了模型的表达能力。为了能更好的表达用户各种各样的兴趣,应该大大增加固定长度向量的维度,然而这会大大增大学习参数的数量,增加过拟合风险,增大计算量与需要的存储空间。
另一方面,在预测对于某一候选广告的点击率时,并没有必要把特定用户的所有兴趣压缩成embedding,因为只有用户的部分兴趣会影响他是否点击。
本文提出了新模型Deep Interest Network(DIN),通过考虑相关的用户历史行为来表达用户对于某一广告的兴趣。

文中简单介绍了Alibaba广告系统的两个stages:
•matching stage. 通过协同过滤(CF)等方法产生对于访问用户的候选广告列表。
•ranking stage. 对于候选广告预测CTR,然后挑选CTR最高的几个进行推送。

DEEP INTEREST NETWORK

输入数据(有onehot也有multi-hot)

Base Model(Embedding&MLP)

Embedding layer

输入是高维的binary向量,通过embedding layer转换成低维稠密向量。
•如果某一特征域上的输入是onehot的,它的embedding表达就是一个embedding向量。
•如果某一特征域上的输入是multi-hot的,它的embedding表达则为一组embedding向量。

Pooling layer and Concat layer

不同用户的用户行为数量是不同的,因此在multi-hot的特征域上获得的embedding数量是不同的。全连接的网络只能处理固定数量的输入,因此一种常见的做法是通过pooling layer来得到一个固定长度的vector。

最常用的两个pooling layer分别是sum pooling和average pooling。(这里可以搞个attention呀,万物皆可attention .)
之后把所有特征域上的embedding concatenate成一个长向量,输入到后面的步骤中去。

MLP

通过MLP来进行学习特征组合。

Loss

The structure of Deep Interest Network

上面描述的方法,对于任何的候选广告,用户兴趣的表示向量都是一样的,这也为模型的性能带来了瓶颈。

与前面的模型相比,DIN的创新点在于引入了local activation unit。local activation unit应用于用户的行为特征,对于一个给定的候选广告进行weighted sum pooling。

ei表示用户的embedding vector list,va表示广告a的embedding vector。通过这种方式,vU(A)随着不同的广告进行变化。a(.)是一个前馈网络,其输出作为激活权重。
与传统的attention方法不同的是,为了能够保留用户兴趣的强度,attention score之和为1的约束被去掉了,也就是说不需要对a(.)的输出进行归一化。

TRAINING TECHNIQUES

Mini-batch Aware Regularization

文中指出传统的L1、L2正则化在大规模电商中并不适合。以L2正则为例,在没有使用正则化的时候,使用SGD时只有mini-batch中非零稀疏特征的参数需要更新,然而使用L2正则后,每个mini-batch都需要更新所有的参数,这对于参数数量很大的情况是不可接受的。
本文提出了一种只在mini-batch上进行的正则化,也就是只计算在mini-batch中出现的稀疏特征参数的L2正则。

Data Adaptive Activation Function

PReLU激活函数

其中s为input的一维,p(s)=I(s>0). α是一个可学习参数。

文中将p(s)称之为控制函数,也就是上图的左边部分。PReLU在值为0时有一个hard rectified point,当各层的输入分布不同时就不那么适合了。
考虑到这一点,本文提出了新的数据适应的激活函数Dice

其控制函数为上图的右边部分。
训练阶段,E[s]和Var[s]为mini-batch上输入的均值和方差。测试阶段,E[s]和Var[s]由训练集上的moving average(即指数加权平均)得到。ϵ是一个很小的常数,通常为10 ^ -8用于数值稳定。
Dice可以看作是对PReLu的泛化。Dice的核心想法在于根据输入数据的分布适应性的调整rectified point,具体数值为输入的均值。当E[s]=0并且Var[s]=0时,Dice退化为PReLU。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,175评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,674评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,151评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,597评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,505评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,969评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,455评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,118评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,227评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,213评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,214评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,928评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,512评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,616评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,848评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,228评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,772评论 2 339