Abstract:
Recommendation systems play a vital role to keep users engaged with personalized content in modern online platforms. Deep learning has revolutionized many research fields and there is a recent surge of interest in applying it to collaborative filtering (CF). However, existing methods compose deep learning architectures with the latent factor model ignoring a major class of CF models, neighborhood or memory-based approaches. We propose Collaborative Memory Networks (CMN), a deep architecture to unify the two classes of CF models capitalizing on the strengths of the global structure of latent factor model and local neighborhood-based structure in a nonlinear fashion. Motivated by the success of Memory Networks, we fuse a memory component and neural attention mechanism as the neighborhood component. The associative addressing scheme with the user and item memories in the memory module encodes complex user-item relations coupled with the neural attention mechanism to learn a user-item specific neighborhood. Finally, the output module jointly exploits the neighborhood with the user and item memories to produce the ranking score. Stacking multiple memory modules together yield deeper architectures capturing increasingly complex user-item relations. Furthermore, we show strong connections between CMN components, memory networks and the three classes of CF models. Comprehensive experimental results demonstrate the effectiveness of CMN on three public datasets outperforming competitive baselines. Qualitative visualization of the attention weights provide insight into the model’s recommendation process and suggest the presence of higher order interactions.
译:
第一章中,作者阐述了提出协记忆网络的初衷:它是一种将两类CF模型(UserCF/ItemCF):基于LFM的全局结构和基于邻域的局部结构,用非线性方法进行统一实现的深度结构模型。基于记忆网络的成功应用,提出了一种由记忆元件和神经注意力机制组成的邻域元件。记忆模块中用户和物品记忆的关联寻址方案编码了用户-物品的复杂联系外加注意力机制,用来学习一种用户-物品的特殊邻域。最终,输出模块联合利用了存有用户-物品记忆的邻域来生成排序分数。集成多个记忆模块作为一个深度结构可以捕捉更加复杂的用户-物品关系。更进一步的,我们展示了CMN组件、记忆网络、和三种CF模型之间的强联系。综合实验结果证明了CMN在公开数据集的表现超过了其他有竞争力的baseline。作者还可视化的展示了注意力权重,能够直观的看出CMN的推荐过程。
INTRODUCTION:
作者在介绍中首先阐述了一下几种传统CF方法。
基于记忆或邻域的方法:根据用户的历史交互信息识别相似用户或商品的群组或邻域。例如KNN,在亚马逊的推荐系统中应用很成功。
基于隐语义模型的方法:将用户和物品映射在一个共同的低围空间上,能够捕捉两者间潜在关系。
两者对比:前者显然会忽略绝大多数商品的评分,因为它在用户和商品的交互反馈中只会选择K个记录;但LFM恰恰相反,捕捉到全局结构的同时容易忽略少数物品之间的强联系。两种方法的弱点和强项导致了“杂交模型”的产生:例如SVD++或因子分解机FM。
接下来简单的介绍了一下网络的三种构成元素:
1. memory component(记忆元件):有读写机制,用内部记忆来编码复杂的用户和商品关联性;
2. associative addressing scheme(关联寻址方案):类似NN(nearest neighborhood)模型,根据可变的(adaptive)用户-物品状态找到有语义相似性的用户。
3. attention mechanism(注意力机制):注意力机制会在有相似偏好的特殊用户子集上放置一个高权重,进而形成一个collective neighborhood summary
最终局部的neighborhood summary和全局的latent factors(潜在语义)之间会有一个非线性相互作用来生成排序分数;集成多个记忆元件有助于挖掘和推断一些清晰明确的邻域。
Memory Augmented Neural Networks:
记忆神经网络通常有两部分构成:一个外部存储器,包含矩阵(Input Matrix)和控制器(Neural Networks),用于在内存上进行读写删操作。这样,记忆元件能够增加模型容量,而不依赖于神经网络,同时能够提供一个知识的内部表示,进而可以追踪长期依赖或者进行推理。神经网络通过content-based或者location-based来操作这些存储器。基于内容的或者关联寻址在给定的问题和一段文本之间寻找一个打分函数,通常内积操作之后接上softmax,这样就可以对每个内存地址进行软读(softly reading)。内存上的软读操作使得模型能够维持差异和区别,因此可以用反向传播训练。而location-based寻址可以执行序列读取或随机存取。
Memory Network最初的框架是由Weston提出的。他证明了在合成问答任务上追踪长期依赖在一定程度上是合理的。Sukhbaatar等减轻了将原始记忆网络训练成端到端系统的强监督性。注意力的概念是从生物学中获得的灵感:人类在面对一个特定事件(例如观察图片)时不会同等的处理所有信息,而是会关注特定的有效信息子集。注意力机制通过可视化注意力权重提供了对深度学习黑盒性的一种洞察。Kumar等在现有的框架上进行了改进,引入了一个情景记忆组件,在生成最终答案前允许多次对内存进行传递或修改。记忆网络架构的灵活性使其能够进行可视化的问答和联合任务学习,以识别情绪和与目标实体的关系。