推荐系统浅谈系列(二) - 主流算法

本文介绍几种目前常见的推荐系统的主要思路,后续会针对每个算法结合具体应用场景再具体阐述下。
1.协同过滤推荐算法

  • user-CF算法
  • item-CF算法

2.基于内容的推荐算法
3.社会化推荐算法
4.混合推荐算法

1. 协同过滤推荐算法
协同过滤推荐算法分为两类:

  • user-CF(基于用户的协同过滤算法)
  • item-CF(基于物品的协同过滤算法)

1.1 user-CF算法
基于用户的协同过滤算法,一种最古老的算法。给用户推荐和他兴趣相似的其他用户喜欢的物品。
主要包括两个步骤:

  • 找到和目标用户兴趣相似的用户集合
  • 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户
    兴趣相似度的通过计算行为相似度来展示,即将用户的各种行为映射成多维空间的向量,通过计算向量的相似度(常用的有余弦相似度、欧式距离等)得出。

举一个简单的例子:
用户A、B、C兴趣分布如下:

user-CF

目标:对用户A进行物品推荐
计算思路:将一个用户对所有物品的行为(喜欢、点赞、评论等)转换成向量,计算各用户之间的相似度(比如欧氏距离、余弦相似度等),然后找出前K个最相似的用户,将他们偏好的但是当前用户没有有过行为的物品进行推荐

第一步:用户的行为向量A(1,0,1,0)、B(0,1,0,0)、C(1,0,1,1)(1:代表喜欢,0:代表目前无行为),利用余弦相似度计算可得到用户A与C最相似
第二步:C喜欢物品D,并且A对物品D没有行为,所以将物品D推荐给用户A
结果:将物品D推荐给用户A

1.2 item-CF算法
基于物品的协同过滤算法,目前业界应用最多的算法。给用户推荐和他们之前喜欢的物品相似的物品。并不是利用物品的内容属性计算物品之间的相似度,而是通过分析用户的行为记录计算物品之间的相似度。
主要包括两个步骤:

  • 计算物品之间的相似度,利用用户行为
  • 根据物品的相似度和用户的历史行为给用户生成推荐列表

举一个简单的例子:
用户A、B、C兴趣分布如下:

item-CF

目标:对用户C进行推荐
计算思路:将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品之后,根据用户的偏好来推荐目前用户还没有表现出偏好的物品,得到一个推荐列表

第一步:计算所有用户对于三个物品的偏好向量,物品A(1,1,1)、物品B(0,1,0)、物品C(1,1,0)(1:代表喜欢;0:代表目前无行为),计算3个物品的相似度(可采用余弦相似度计算),得到A与C最相似
第二步:用户C的历史行为是偏好物品A,所以推荐与物品A最相似的,也就是物品C
结果:给用户C推荐物品C

1.3 优缺点对比

优缺点

2. 基于内容的推荐算法
该算法是根据用户喜欢的物品进行推荐,与item-CF不同的是,它利用的是物品的内容属性,以下将物品统称为item。
主要包括三个步骤:

  • 为每个item抽取出一些特征来表示此item
  • 利用用户过去喜欢的(或者不喜欢的)item的特征数据,来学习出此用户的喜好数据(即profile)
  • 利用上一步得到的用户的profile与候选item的特征,为用户推荐一组相关性最大的item

以电影为例,举一个简单的例子:

基于内容的推荐

推荐目标:现在想对用户A推荐电影
第一步:对A、B、C三部电影抽取特征(本例的粒度很粗,实际应用复杂的多),如下

电影特征

第二步:已知用户A喜欢电影A,那么通过电影A的特征学习得到用户的偏好:爱情、浪漫
第三步:利用上一步得到的用户的profile,在B和C两部候选电影中,计算相似度最大的(例如采用余弦计算),最终选择电影C
结果:将电影C推荐给用户A

3. 社会化推荐算法
利用社交网络中的社会关系进行推荐,比如朋友关系的相互推荐,将朋友感兴趣的物品推荐给用户,主要应用于QQ、微信、微博这类应用中。此处就了解下概念,不再介绍了。
推荐一篇论文,感兴趣的可以去看看:一种结合推荐对象间关联关系的社会化推荐算法.

4.混合推荐算法
前面推荐的算法各有利弊,在实际使用中,大都是几种算法并行混合使用,才能取得比较不错的使用效果。

简单的介绍就到这里了,实际应用中的算法会结合具体使用场景做出改进,要严谨复杂的多,考虑的各种指标也比较多。这里只是做了一个简单的概念介绍,除了上面介绍的算法之外,还有一些其他的推荐算法,比如基于关联规则的推荐算法等。

系里主要做数据挖掘,自己现在看的比较偏自然语言处理方面,正好赶上了深度学习的大潮。在图片处理领域已经获得成功的深度学习,这两年被不断的应用到了nlp领域。推荐系统也是一个很好的应用方面,不知道有没有把这两方面结合的做法?~


                                     微信公众号:
                      产品新人学习路 ( i-pm-road),欢迎交流
                                      (๑•ᴗ•๑)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • -- 原创,未经授权,禁止转载 2017.11.15 -- 对于推荐系统,本文总结内容,如下图所示: 文章很长,你...
    rui_liu阅读 42,918评论 14 256
  • 这篇文章的技术难度会低一些,主要是对推荐系统所涉及到的各部分内容进行介绍,以及给出一些推荐系统的常用算法,比起技术...
    我偏笑_NSNirvana阅读 12,058评论 5 89
  • 推荐系统的主要方法 一、基于内容的推荐算法 网络基于内容的推荐系统,也称CB(Content-based Reco...
    Arya鑫阅读 3,520评论 1 6
  • 0. 导语 推荐系统里面有两个经典问题:EE 问题和冷启动问题。前者涉及到平衡准确和多样,后者涉及到产品算法运营等...
    Liam_ml阅读 1,731评论 0 4
  • 现在进入最辛苦的阶段,一直跟下来的队友会觉得疲劳肌肉酸痛,但看到成绩却提高了些(也有退步的)。可怎样才能游出最好成...
    元能力阅读 348评论 0 0