【《数学之美》笔记（三）】推荐系统的奥秘

该系列合集会同步发布与 GitHub HomePage

1. 基于用户数据：协同过滤算法

归功于亚马逊工程师的“发明”——“一个客户买了这个东西，那么他也可能买另一个东西”

基本思想：

喜好相同的人和人之间有相似的消费/行为模式。喜好这个东西的人，倾向于也喜好另一个

实现的方法为“协同过滤”算法 (collaborative filtering)

下面以音乐推荐系统为例进行说明，基于对用户历史数据的不同侧重，可以分为以下两类应用情景：

（1）基于用户：对每一个用户的听歌偏好作为向量，计算用户喜好之间的相似度，找到与某个用户X喜好最相似的一个其他用户Y，然后将Y的歌单里有而X没有的歌推荐给X

（2）基于项目（单曲）：将用户对于一首歌的偏好作为向量，计算单曲之间的相似度，若某个用户喜欢/收藏了某一首歌，则将于这首歌相似的歌曲推荐给这个用户

但是，基于单一协同过滤算法的推荐系统会存在明显的误差：

除了用户及消费模式信息，不涉及被推荐单曲本身的任何信息

这使得热门音乐币冷门音乐更容易得到推荐，因为前者拥有更多数据

如果推荐系统只能给出热门歌曲的推荐，往往很难让人感到惊喜

而基于项目（单曲）的协同过滤，也有一个问题，就是相似使用模式下的内容异质。

例如你听了一张新专辑里面全部的歌，但除了主打歌，其他的一些插曲、翻唱曲以及混音曲可能都不是歌手的典型作品，那么协同过滤在这个时候，就会因为这些「噪音」而产生偏差。

最大的问题便是“没有数据，一切皆失效”

2. 基于内容：摆脱协同过滤算法对用户数据的过分依赖

在数据量庞大且足够干净的时候，协同过滤算法是非常强大的，但如果作为一个新用户，在数据稀少的情况下，推荐系统该怎么获知我的口味？

可以利用歌曲本身的信息来得到推荐结果，其基本思想是：

当你喜欢一首歌时，你会倾向也喜欢同类型的其他歌曲

不同歌曲有很多不同的属性，用一个向量去描述该单曲的属性，每一个维度的值代表一个属性的定量描述

按照这些属性，可以计算两首歌曲的相似度

基于内容的推荐算法更像是对协同过滤算法以上缺陷的一种补充——假如没有大量用户数据，或者想听冷门歌曲，我们就只能从音乐本身寻找答案了

前面提到，可以根据歌曲的不同维度的属性去构造一个特征向量去描述它，但是可供选择的属性实在是太多了，因此需要构造的特征向量维度过大——可以利用深度学习建立基于音频的推荐模型，通过特征的embedding和降维方法，把这么多特征映射到低维变量空间里

3. 相似度到底是怎么算出来的？

可以拥有描述相似度的统计量为：欧式距离和余弦相似度

可以看出，在上图中，如果固定B，让A沿着直线OA方向移动，在移动过程中，AB的余弦夹角始终保持不变，而两点之间的绝对距离一直在变化

这种差异使得在使用它们进行相似度描述时，要考虑数据的特性：

（1）欧式距离：能够突出数值绝对差异，在欧式距离下，用户对歌曲的偏好都可以被认为是一样的分数，可以简化歌曲相似度的计算；

（2）余弦相似度：更多是从用户偏好方向上区分差异

参考资料：

(1) 吴军《数学之美（第二版）》

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,242评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,769评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,484评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,133评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,007评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,080评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,496评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,190评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,464评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,549评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,330评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,205评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,567评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,889评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,160评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,475评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,650评论 2赞 335

【《数学之美》笔记（三）】推荐系统的奥秘

1. 基于用户数据：协同过滤算法

2. 基于内容：摆脱协同过滤算法对用户数据的过分依赖

3. 相似度到底是怎么算出来的？

推荐阅读更多精彩内容