推荐系统理论(五) -- 利用上下文信息进行推荐

本篇的思维导读如下所示:

1、什么是上下文

本章之前提到的推荐系统算法主要集中研究了如何联系用户兴趣和物品,将最符合用户兴趣的物品推荐给用户,但这些算法都忽略了一点,就是用户所处的上下文(context)。这些上下文包括用户访问推荐系统的时间、地点、心情等,对于提高推荐系统的推荐系统是非常重要的。比如,一个卖衣服的推荐系统在冬天和夏天应该给用户推荐不同种类的服装。推荐系统不能因为用户在夏天喜欢过某件T恤,就在冬天也给该用户推荐类似的T恤。
我们这里主要讨论时间上下文,并简单介绍一下地点上下文,讨论如何将时间信息和地点信息建模到推荐算法中,从而让推荐系统能够准确预测用户在某个特定时刻及特定地点的兴趣。

2、时间上下文

2.1 时间效应

时间是一种重要的上下文信息,对用户兴趣有着深入而广泛的影响。一般认为,时间信息对用户兴趣的影响表现在以下几个方面。
1)用户兴趣是变化的
2)物品也是有生命周期的
3)季节效应

2.2 系统时间特性分析

在给定时间信息后,推荐系统从一个静态系统变成了一个时变的系统,而用户行为数据也变成了时间序列。研究一个时变系统,需要首先研究这个系统的时间特性。包含时间信息的用户行为数据集由一系列三元组构成,其中每个三元组(u,i,t)代表了用户u在时刻t对物品i产生过行为。我们可以研究的时间特性如下:
数据集每天独立用户数的增长情况
系统的物品变化情况:比如物品的平均在线天数,如果一个物品在某天被至少一个用户产生过行为,就定义该物品在 这一天在线。因此,我们可以通过物品的平均在线天数度量一类物品的生存周期。
用户访问情况:我们可以统计用户的平均活跃天数,同时也可以统计相隔T天来系统的用户的重合度。
相隔T天系统物品流行度向量的平均相似度:取系统中相邻T天的两天,分别计算这两天 的物品流行度,从而得到两个流行度向量。然后,计算这两个向量的余弦相似度,如果相似度大,说明系统的物品在相隔T天的时间内没有发生大的变化,从而说明系统的时效 性不强,物品的平均在线时间较长。

2.3 推荐系统的实时性

实现推荐系统的实时性除了对用户行为的存取有实时性要求,还要求推荐算法本身具有实时性,而推荐算法本身的实时性意味着:
1)实时推荐系统不能每天都给所有用户离线计算推荐结果,然后在线展示昨天计算出来的 结果。所以,要求在每个用户访问推荐系统时,都根据用户这个时间点前的行为实时计 算推荐列表。
2)推荐算法需要平衡考虑用户的近期行为和长期行为,即要让推荐列表反应出用户近期行为所体现的兴趣变化,又不能让推荐列表完全受用户近期行为的影响,要保证推荐列表对用户兴趣预测的延续性。

2.4 推荐结果的时间多样性

那么,如何在不损失精度的情况 下提高推荐结果的时间多样性呢?提高推荐结果的时间多样性需要分两步解决:首先,需要保证推荐系统能够在用户有了新的 行为后及时调整推荐结果,使推荐结果满足用户最近的兴趣;其次,需要保证推荐系统在用户没 有新的行为时也能够经常变化一下结果,具有一定的时间多样性
对于第一步,又可以分成两种情况进行分析。第一是从推荐系统的实时性角度分析。有些推荐系统会每天离线生成针对所有用户的推荐结果,然后在线直接将这些结果展示给用户。这种类型的系统显然无法做到在用户有了新行为后及时调整推荐结果。第二,即使是实时推荐系统,由于使用的算法不同,也具有不同的时间多样性。
那么,如果用户没有行为,如何保证给用户的推荐结果具有一定的时间多样性呢?一般的思路有以下几种。
在生成推荐结果时加入一定的随机性,
记录用户每天看到的推荐结果,然后在每天给用户进行推荐时,对他前几天看到过很多次的推荐结果进行适当地降权。
每天给用户使用不同的推荐算法。

3、时间上下文推荐算法

3.1 最近最热门

在没有时间信息的数据集中,我们可以给用户推荐历史上最热门的物品。那么在获得用户行为的时间信息后,最简单的非个性化推荐算法就是给用户推荐最近最热门的物品了。给定时间T, 物品i最近的流行度 ni (T ) 可以定义为:

3.2 时间上下文相关的ItemCF算法

那么基于时间上下文,我们可以从以下两个方面改进ItemCF算法。
1)物品相似度 : 用户在相隔很短的时间内喜欢的物品具有更高相似度。
2) 在线推荐:用户近期行为相比用户很久之前的行为,更能体现用户现在的兴趣。

首先回顾一下前面提到的基于物品的协同过滤算法,它通过如下公式计算物品的相似度:

而在给用户u做推荐时,用户u对物品i的兴趣p(u,i)通过如下公式计算:

在得到时间信息之后,我们可以通过如下的公式来改进相似度计算:

上面使用的衰减函数可能的形式如下:

除了考虑时间信息对相关表的影响之外,我们也应该考虑时间信息对预测公式的影响,一般来说,用户现在的行为应该和用户最近的行为关系更大,因此可以做如下的修正:

其中, t0 是当前时间。上面的公式表明, tuj 越靠近t0 ,和物品j相似的物品就会在用户u的推荐列表中获得越高的排名。

3.3 时间上下文相关的UserCF算法

与ItemCF一样,我们也可以在以下两个方面利用时间信息改进UserCF算法。
1)用户兴趣相似度:两个用户兴趣相似是因为他们喜欢相同的物品,或者对相同的物品产生过行为。但是,如果两个用户同时喜欢相同的物品,那么这两个用户应该有更大的兴趣相似度。

2)相似兴趣用户的最近行为 :在找到和当前用户u兴趣相似的一组用户后,这组用户最近的兴趣显然相比这组用户很久之前的兴趣更加接近用户u今天的兴趣。也就是说,我们应该给用户推荐和他兴趣相似的用户最近喜欢的物品。

首先回顾一下UserCF的公式,UserCF通过如下公式计算用户u和用户v的兴趣相似度:

其中N(u)是用户u喜欢的物品集合,N(v)是用户v喜欢的物品集合。
在得到用户相似度后,UserCF通过如下公式预测用户对物品的兴趣:

考虑时间因素,我们可以如下修改用户相似度计算,增加一个时间衰减因子,用户u和用户 v对物品i产生行为的时间越远,那么这两个用户的兴趣相似度就会越小。:

同样,如果考虑和用户u兴趣相似用户的最近兴趣,我们可以设计如下公式:

3.4 时间段图模型

在基于时间的图模型中,时间段图模型G(U,SU ,I,SI ,E,w,)也是一个二分图。U是用户节点集合,SU 是用户时间段节点集合。一个用户时间段节点vut∈SU 会和用户u在时刻t喜欢的物品通过边相连。I是物品节点 集合,SI 是物品时间段节点集合。一个物品时间段节点vit∈SI 会和所有在时刻t喜欢物品i的用户 通过边相连。E是边集合,它包含了3种边:(1)如果用户u对物品i有行为,那么存在边 e(vu , vi ) ∈ E ; (2)如果用户u在t时刻对物品i有行为,那么就存在两条边 e(vut , vi ), e(vu , vit ) ∈ E。
下图是一个简单的时间段图模型示例。在这个例子中,用户A在时刻2对物品b产生了行为。 因此,时间段图模型会首先创建4个顶点,即用户顶点A、用户时间段顶点A:2、物品顶点b、物 品时间段顶点b:2。然后,图中会增加3条边,即(A, b)、(A:2, b)、(A, b:2)。这里不再增加(A:2, b:2) 这条边,一方面是因为增加这条边后不会对结果有所改进,另一方面则是因为增加一条边会增加 图的空间复杂度和图上算法的时间复杂度。

这里,我们不再使用PersonalRank算法给用户进行个性化推荐。相应的,我们使用一种称为路径融合算法的方法,通过该算法度量图中两个顶点的相关性。
一般来说,图上两个相关性比较高的顶点一般具有如下特征:
1) 两个顶点之间有很多路径相连;
2) 两个顶点之间的路径比较短;
3)两个顶点之间的路径不经过出度比较大的顶点。

这里实在是不好弄公式,直接截图了:

4、地点上下文信息

除了时间,地点作为一种重要的空间特征,也是一种重要的上下文信息。这里我们不详细介绍了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容