推荐系统模型1-FM模型族

FM 原理与特点

适用场景

FM模型可以用于回归任务、二分类任务、排名任务,特别是在数据稀疏场景下,效果明显,广泛应用于推荐系统、广告系统等领域。

  • 针对问题:
    FM(Factorization Machine)主要是为了解决数据稀疏的情况下,特征怎样组合的问题。
    不同特征之间非独立假设。


    image.png

    这个是它的原式,对于这个式子来说,前面两项的复杂度是O(n),我们可以先忽略,重点来看最后一项。我们要做的就是通过数学公式的变形来对这一项进行化简:

  • 求解


    image.png
image.png

关键:
image.png
image.png
image.png

image.png
  • 多维扩展
    > 2特征之间交互。

    image.png

    不好优化,三重特征交叉过度稀疏,意义不大。

  • FM 实现
    libfm-C++的 自己看 懒得记。
    http://www.libfm.org/

FFM

就是在FM模型上加field,效果优于FM,但是参数量太大,一般情况下不建议使用这种笨重的模型。


image.png

FFM是FM的一个特例,它更细致地刻画了这个特征。首先它做了任意两个特征组合,但是区别在于,怎么刻划这个特征?FM只有一个向量,但FFM现在有两个向量,也就意味着同一个特征,要和不同的fields进行组合的时候,会用不同的embedding去组合,它的参数量更多。对于一个特征来说,原先是一个vector,现在会拓成F个vector,F是特征fields的个数,只要有跟其它特征的任意组合,就有一个vector来代表,这就是FFM的基本思想。
为了改进FFM参数量巨大不适合线上训练的特点,双线性改进应运而生。


image.png

原理:共享参数矩阵W。
三种组合W
image.png

最优效果为组合方式。张俊林老师实验结果显示,随着参数逐渐增多,双线性FFM效果逐渐接近甚至赶超FFM。


image.png

结论与猜想:
  1. 共享参数矩阵,可以有效降低FFM的海量参数,提升模型效率。
  2. 随着共享矩阵参数逐渐复杂,模型效果提升就接近饱和,猜想可能存在一个共享参数矩阵的最优边界。

两条演进路线:

image.png

一种,设计有效的FM新func使得有效捕捉二姐特征组合,第二种,讨论高阶特征。一般应用中,第一种方式的收益,对于大多数场景,要优于第二种,不是高阶特征就一定有收益,除非高阶特征的组合,对目标预测的效果有正向收益,否则,一般来说二阶特征组合已经满足所需要的精度,且适合于实践与部署。

DeepFM

image.png

基础架构,基于W&D,LR替换为FM由人工交叉走向特征自动交叉。
FM部分:


image.png

image.png

sparsefeature做addition,共享的embedding之后的特征做隐向量点积。
Deep部分:


image.png

稀疏特征转换为低维稠密向量。通常随机初始化,
DeepCTR的方式,通过logistic loss function分别训练,合并输出。

实际上由三部分构成:linear+Second-order Interaction+DNN

xDeepFM 与特征交叉三巨头

特征交叉三巨头


image.png

image.png

理论上,XDeepFM更接近于DCN的模型结构,是DCN模型结构的改进,模型由三部分组成:linear+DNN+CIN
解决元素级特征交互中bit-wise方式,模型训练域概念丢失问题,如图所示
DCN的cross方式,先将field 的向量横向 concat,作为一个输入向量 x0,然后每层特征都会与 x0做内积,得到更高一阶的特征交互(DCN的Xl层输出与Xl+1层输出进行残差拟合)。


image.png
image.png

如何改进?
CIN:


image.png
image.png
image.png

CIN与corss的主要差异:

  1. 采用vector-wise的方式使同field特征权重得以保持一致。
  2. 在第l层,cross包含从1~l+1层的所有特征组合,而CIN只包含l+1层的特征组合,每层输出中间结果,然后X0再与每层做Hadamard乘积。
  • 几个问题
  1. CIN与FM的关系?
    FM为CIN单层且压缩矩阵W恒为1的特殊情况CIN。
  2. W这个鬼东西貌似是关键?怎么求?


    image.png

    image.png

    求解方式:一维卷积,deepctr里面实现可以去看类CIN下的call。
    核心思想就是利用H^k+1 个尺寸为 m*H^k 的卷积核生成下一层隐层的状态,将三维矩阵压缩为二维。


    image.png

    curr_out的大小是 Batch * Embedding Size * Layer size。然后把curr_out按照direct或者非direct的方式作为下一个隐层向量的输入。filters采用默认glorot_uniform_initializer初始化。

纯属学习 不涉利益

ref:
https://zhuanlan.zhihu.com/p/343174108
*https://zhuanlan.zhihu.com/p/145436595
https://zhuanlan.zhihu.com/p/35526715
https://zhuanlan.zhihu.com/p/61096338
https://zhuanlan.zhihu.com/p/83784018
https://zhuanlan.zhihu.com/p/371849616
https://zhuanlan.zhihu.com/p/67795161
https://arxiv.org/pdf/1703.04247.pdf
https://zhuanlan.zhihu.com/p/154591869
https://zhuanlan.zhihu.com/p/109933924
https://zhuanlan.zhihu.com/p/45450361
https://www.cnblogs.com/talkaudiodev/p/14287562.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容

  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,033评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,870评论 0 2
  • 今天上午陪老妈看病,下午健身房跑步,晚上想想今天还没有断舍离,马上做,衣架和旁边的的布衣架,一看乱乱,又想想自己是...
    影子3623253阅读 2,905评论 1 8