该系列合集会同步发布与 GitHub HomePage
1. 基于用户数据:协同过滤算法
归功于亚马逊工程师的“发明”——“一个客户买了这个东西,那么他也可能买另一个东西”
基本思想:
喜好相同的人和人之间有相似的消费/行为模式。喜好这个东西的人,倾向于也喜好另一个
实现的方法为“协同过滤”算法 (collaborative filtering)
下面以音乐推荐系统为例进行说明,基于对用户历史数据的不同侧重,可以分为以下两类应用情景:
(1)基于用户:对每一个用户的听歌偏好作为向量,计算用户喜好之间的相似度,找到与某个用户X喜好最相似的一个其他用户Y,然后将Y的歌单里有而X没有的歌推荐给X
(2)基于项目(单曲):将用户对于一首歌的偏好作为向量,计算单曲之间的相似度,若某个用户喜欢/收藏了某一首歌,则将于这首歌相似的歌曲推荐给这个用户
但是,基于单一协同过滤算法的推荐系统会存在明显的误差:
除了用户及消费模式信息,不涉及被推荐单曲本身的任何信息
这使得热门音乐币冷门音乐更容易得到推荐,因为前者拥有更多数据
如果推荐系统只能给出热门歌曲的推荐,往往很难让人感到惊喜
而基于项目(单曲)的协同过滤,也有一个问题,就是相似使用模式下的内容异质。
例如你听了一张新专辑里面全部的歌,但除了主打歌,其他的一些插曲、翻唱曲以及混音曲可能都不是歌手的典型作品,那么协同过滤在这个时候,就会因为这些「噪音」而产生偏差。
最大的问题便是“没有数据,一切皆失效”
2. 基于内容:摆脱协同过滤算法对用户数据的过分依赖
在数据量庞大且足够干净的时候,协同过滤算法是非常强大的,但如果作为一个新用户,在数据稀少的情况下,推荐系统该怎么获知我的口味?
可以利用歌曲本身的信息来得到推荐结果,其基本思想是:
当你喜欢一首歌时,你会倾向也喜欢同类型的其他歌曲
不同歌曲有很多不同的属性,用一个向量去描述该单曲的属性,每一个维度的值代表一个属性的定量描述
按照这些属性,可以计算两首歌曲的相似度
基于内容的推荐算法更像是对协同过滤算法以上缺陷的一种补充——假如没有大量用户数据,或者想听冷门歌曲,我们就只能从音乐本身寻找答案了
前面提到,可以根据歌曲的不同维度的属性去构造一个特征向量去描述它,但是可供选择的属性实在是太多了,因此需要构造的特征向量维度过大——可以利用深度学习建立基于音频的推荐模型,通过特征的embedding和降维方法,把这么多特征映射到低维变量空间里
3. 相似度到底是怎么算出来的?
可以拥有描述相似度的统计量为:欧式距离和余弦相似度
可以看出,在上图中,如果固定B,让A沿着直线OA方向移动,在移动过程中,AB的余弦夹角始终保持不变,而两点之间的绝对距离一直在变化
这种差异使得在使用它们进行相似度描述时,要考虑数据的特性:
(1)欧式距离:能够突出数值绝对差异,在欧式距离下,用户对歌曲的偏好都可以被认为是一样的分数,可以简化歌曲相似度的计算;
(2)余弦相似度:更多是从用户偏好方向上区分差异
参考资料:
(1) 吴军《数学之美(第二版)》