基于用户行为分析的推荐算法是个性化推荐系统的重要算法,一般将这种算法成为协同过滤算法。协同过滤,就是用户可以齐心协力,通过不断和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。
1. 基于邻域的算法
基于邻域的算法是推荐系统中最基本的算法,主要分为两大类,一类是基于用户的协同过滤算法(UserCF, user-based collaborative filtering),另一类是基于物品的协同过滤算法(ItemCF, item-based collaborative filtering)。
1.1 基于用户的协同过滤算法
1.1.1 基础算法
当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的而A没有听说过的物品推荐给A。
基于用户的协同过滤算法主要包括两个步骤:
- 找到和目标用户兴趣相似的用户集合(余弦相似度);
- 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。
步骤1的关键的计算两个用户的兴趣相似度。这里主要利用行为的相似度来计算兴趣的相似度。
举个例子:
UserA对{a,b,d}有过行为
UserB对{a,c}有过行为
UserA对{b,e}有过行为
UserA对{c,d,e}有过行为
利用余弦相似度公式计算用户A和B的兴趣相似度为
ps:余弦相似计算
把
UserA对{a,b,d}有过行为
UserB对{a,c}有过行为
UserA对{b,e}有过行为
UserA对{c,d,e}有过行为
转化成向量图:
a,b,c,d,e
A [1,1,0,1,0]
B [1,0,1,0,0]
C [0,1,0,0,1]
D [0,0,1,1,1]
得到用户之间的兴趣相似度之后,UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。
用户u对物品i的感兴趣程度:
S(u,K)包含和用户u感兴趣最接近的K个用户
N(i)是对物品有过行为的用户集合
wuv是用户u和用户v的相似度
rvi是用户v对物品i的兴趣(因为使用的是单一行为<有过行为>的隐反馈数据,所以为1)
用户A对物品c,e的兴趣是
p(A,c)=wAB+wAD
p(A,e)=wAC+wAD
UserCF有一个重要的参数K,即为每个用户选出K个和他兴趣最相似的用户,然后推荐那K个用户感兴趣的物品,因此离线实验要测量不同K值下的UserCF算法的性能指标(准确率、召回率、覆盖率、流行度等)。
1.1.2 实际使用UserCF的案例
Digg的推荐系统设计思路如下。用户在Digg中使用“顶”和“踩”两种行为表达自己对文章的看法。当用户顶了一篇文章,Digg认为用户对这篇文章感兴趣,且愿意把文章推荐给其他用户。然后,Digg找到所有在该用户顶文章之前也顶了这篇文章的其他用户,然后给他推荐那些人最近顶的其他文章。Digg使用的是UserCF算法的简化版本。
1.2 基于物品的协同过滤算法
1.2.1 基础算法
给用户推荐那些和他们之前喜欢的物品相似的物品。ItemCF并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。物品A和物品B具有很大的相似度是因为喜欢A的物品大都也喜欢物品B。
基于物品的协同过滤算法主要包括两个步骤:
- 计算物品之间的相似度;
- 根据物品的相似度和用户的历史行为给用户生成推荐列表。
图中最左边是输入的用户行为记录,每一行代表一个用户感兴趣的物品集合。矩阵C[i][j]记录了同时喜欢物品i和物品j的用户数。
得到物品之间的相似度后,ItemCF通过如下公式计算用户u对一个物品j的兴趣。
N(u)是用户喜欢的物品的集合
S(j,K)是和物品j最相似的K个物品的集合
wji是物品j和物品i的相似度
rui是用户u对物品i的兴趣(因为使用的是单一行为<有过行为>的隐反馈数据,所以为1)
如下图,用户喜欢《C++ Primer中文版》和《编程之美》两本书,然后ItemCF会为这两本书分别找出和它们最相似的3本书。用户对《C++ Primer中文版》的兴趣度是1.3,《C++ Primer中文版》和《C++ 编程思想》的相似度为0.7,那么用户对《C++ 编程思想》的兴趣度就是1.3*0.7=0.91。
1.3 UserCF和ItemCF的综合比较
为什么Digg使用UserCF,而亚马逊使用ItemCF?
UserCF的推荐结果着重于反映和用户兴趣相似的小群体的热点,而ItemCF的推荐结果着重于维系用户的历史兴趣。
新闻网站中,用户的兴趣不是特别细化,绝大多数用户喜欢看热门的新闻。UserCF可以给用户推荐和他有相似爱好的一群其他用户今天都在看的新闻,这样在抓住热点和时效性的同事,保证了一定程度的个性化。另一个技术方面的原因,ItemCF需要维护一张物品相关度的表,如果物品更新很快,技术上很难实现,多数相似度表通常只能做到一天更新一次,在新闻领域无法接受。
但在图书、电子商务和电影网站中,ItemCF能发挥较大优势。首先,这些网站中用户的兴趣是比较固定和持久的。此外,这些网站中个性化推荐的任务是帮助用户发现和他研究领域相关的物品,这些用户不太需要流行度来辅助他们判断一个物品的好坏,而是可以通过自己熟悉领域的知识自己判断物品的质量。
2. 利用物品内容信息冷启动
UserCF给用户进行推荐时,会首先找到和用户兴趣相似的一群用户,然后给用户推荐这一群用户喜欢的物品。UserCF需要解决第一推动力的问题,即第一个用户从哪发现新的物品。解决第一推动力最简单的方法是将新的物品随机展示给用户,这样不够个性化,因此可以考虑利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容相似的其他物品。
ItemCF算法的原理是给用户推荐和他之前喜欢的物品相似的物品。ItemCF算法会每隔一段时间利用用户行为计算物品相似度表,在线服务时ItemCF算法会将之前计算好的物品相似度矩阵放在内存中。当新的物品加入时,内存中的物品相关表中不会存在这个物品,从而ItemCF无法推荐新的物品。新物品不展示给用户,用户就无法对它产生行为,通过行为日志计算不出好办新物品的矩阵。因此,只能利用物品的内容信息计算物品的相关表,并频繁地更新相关表。
既然内容相似度计算简单,能频繁更新,而且能够姐姐物品冷启动的问题,那为什么还需要协同过滤的算法?很多时候,内容过滤算法的精度比协同过滤算法差。但当用户的行为强烈受某一内容属性的影响,那么内容过滤算法可以在精度上超过协同过滤算法。例如,GitHub的内容过滤算法优于协同过滤算法,是因为GitHub提供了一个非常强的内容特征,就是开源项目的作者。程序员会经常关注关注同一个作者的不同项目,而协同过滤算法由于数据稀疏的影响,不能从用户行为中完全统计出这一特征,所以协同过滤算法反而不如内容过滤算法。
来源:项亮.推荐系统实践[M].人民邮电出版社:北京,2012:1-197.
参考:余弦相似计算:https://www.jianshu.com/p/f4606ae118b3