【推荐系统实践-01】推荐系统简介

项亮老师的《推荐系统实践》学习笔记。

1、什么是推荐系统
2、个性化推荐系统应用场景
3、推荐系统评测
- 推荐系统实验方法
  - 离线实验
  - 用户调查
  - 在线实验
- 评测指标
  - 用户满意度
  - 预测准确度
  - 覆盖率
  - 多样性
  - 新颖性
  - 惊喜度
  - 信任度
  - 实时性
  - 健壮性
  - 商业目标
  - 总结
- 评测维度

1、什么是推荐系统

如果用户有明确的需求，可以通过商家的商品分类、指示牌、自己的搜索等方式来找寻自己的需求品。如果用户没有明确的需求，面对信息过载的情况下，那就需要其他用户或者工具来帮助筛选，那么一个好的自动化工具就可以通过分析你的历史兴趣，从庞大的物品库里面挑选出符合用户口味的物品。这个自动化的工具就是个性化推荐系统。
推荐系统的任务就是联系用户和信息，一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产者的双赢。
众所周知，为了解决信息过载的问题，已经有无数科学家和工程师提出了很多天才的解决方案，其中代表性的解决方案是分类目录和搜索引擎。而这两种解决方案分别催生了互联网领域的两家著名公司——雅虎和谷歌。
和搜索引擎不同的是，推荐系统不需要用户提供明确的需求，而是通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足他们兴趣和需求的信息。

2、个性化推荐系统应用场景

个性化推荐系统的主要作用是通过分析大量用户行为日志，给不同用户提供不同的个性化页面展示，来提高网站的点击率和转化率。广泛利用推荐系统的领域包括电子商务、电影和视频、音乐、社交网络、阅读、基于位置的服务、个性化邮件和广告等。
几乎所有的推荐系统应用都是由前台的展示页面、后台的日志系统以及推荐算法系统三部分构成。

电子商务
商品推荐，淘宝、京东、等商品的个性化推荐
电影和视频
腾讯视频、爱奇艺、优酷、抖音快手等短视频
音乐
QQ音乐、网易云音乐
阅读
QQ阅读等
基于位置的服务
美团、携程、饿了么等
个性化广告

个性化推荐系统就可以通过分析用户的历史行为，包括浏览、点击、收藏、停留时间等等大量的个性化行为，不同的应用场景有着不用的物品、以及不同的需求方式，因此相同的历史行为在不同的应用场景下有着不同的使用权重、不同的推荐使用价值。

3、推荐系统评测

什么才是好的推荐系统？这是推荐系统评测需要解决的首要问题。
一个完整的推荐系统一般存在3个参与方用户、物品提供者和提供推荐系统的网站。以图书推荐为例，首先，推荐系统需要满足用户的需求，给用户推荐那些令他们感兴趣的图书。其次，推荐系统要让各出版社的书都能够被推荐给对其感兴趣的用户，而不是只推荐几个大型出版社的书。最后，好的推荐系统设计，能够让推荐系统本身收集到高质量的用户反馈，不断完善推荐的质量，增加用户和网站的交互，提高网站的收入。因此在评测一个推荐算法时，需要同时考虑三方的利益，一个好的推荐系统是能够令三方共赢的系统。

image

3.1、推荐系统实验方法

离线实验
离线实验的方法一般由如下几个步骤构成：
(1) 通过日志系统获得用户行为数据，并按照一定格式生成一个标准的数据集；
(2) 将数据集按照一定的规则分成训练集和测试集；
(3) 在训练集上训练用户兴趣模型，在测试集上进行预测；
(4) 通过事先定义的离线指标评测算法在测试集上的预测结果。
用户调查
个性化推荐算法在上线测试前一般需要做一次称为用户调查的测试。
用户调查需要有一些真实用户，让他们在需要测试的推荐系统上完成一些任务。在他们完成任务时，我们需要观察和记录他们的行为，并让他们回答一些问题。最后，我们需要通过分析他们的行为和答案了解测试系统的性能。
在线实验
在完成离线实验和必要的用户调查后，可以将推荐系统上线做AB测试，将它和旧的算法进行比较。
AB测试是一种很常用的在线评测算法的实验方法。它通过一定的规则将用户随机分成几组，并对不同组的用户采用不同的算法，然后通过统计不同组用户的各种不同的评测指标比较不同算法，比如可以统计不同组用户的点击率，通过点击率比较不同算法的性能。

一般来说，一个新的推荐算法最终上线，需要完成上面所说的3个实验。
首先，需要通过离线实验证明它在很多离线指标上优于现有的算法。
然后，需要通过用户调查确定它的用户满意度不低于现有的算法。
最后，通过在线的AB测试确定它在我们关心的指标上优于现有的算法。

3.2、评测指标

1、用户满意度

用户作为推荐系统的重要参与者，其满意度是评测推荐系统的最重要指标。

1.用户调查获得用户满意度主要是通过调查问卷的形式。
2.在在线系统中，用户满意度主要通过一些对用户行为的统计得到。比如在电子商务网站中，用户如果购买了推荐的商品，就表示他们在一定程度上满意。因此，我们可以利用购买率度量用户的满意度。
3.此外，有些网站会通过设计一些用户反馈界面收集用户满意度。比如在视频网站中，都有对推荐结果满意或者不满意的反馈按钮，通过统计两种按钮的单击情况就可以度量系统的用户满意度。
4.更一般的情况下，我们可以用点击率、用户停留时间和转化率等指标度量用户的满意度。

2、预测准确度

预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。这个指标是最重要的推荐系统离线评测指标。
在计算该指标时需要有一个离线的数据集，该数据集包含用户的历史行为记录。然后，将该数据集通过时间分成训练集和测试集。最后，通过在训练集上建立用户的行为和兴趣模型预测用户在测试集上的行为，并计算预测行为和测试集上实际行为的重合度作为预测准确度。

评分预测

预测用户对物品评分的行为称为评分预测。
评分预测的预测准确度一般通过均方根误差（RMSE）和平均绝对误差（MAE）计算。
对于测试集中的一个用户 $u$ 和物品 $i$ ，令 $r_{ui}$ 是用户 $u$ 对物品 $i$ 的实际评分，而 $\hat{r_{ui}}$ 是推荐算法给出的预测评分，那么RMSE的定义为：
$RMSE=\frac{\sqrt{\sum\limits_{u,i\in{T}}(r_{ui}-\hat{r_{ui}})^2}}{\left|T\right|}$
MAE采用绝对值计算预测误差，它的定义为：
$MAE=\frac{\sum\limits_{u,i\in{T}}\left|r_{ui}-\hat{r_{ui}}\right|}{\left|T\right|}$
关于RMSE和MAE这两个指标的优缺点， Netflix认为RMSE加大了对预测不准的用户物品评分的惩罚（平方项的惩罚），因而对系统的评测更加苛刻。研究表明，如果评分系统是基于整数建立的（即用户给的评分都是整数），那么对预测结果取整会降低MAE的误差。

TopN推荐

网站在提供推荐服务时，一般是给用户一个个性化的推荐列表，这种推荐叫做TopN推荐。
TopN推荐的预测准确率一般通过准确率（precision）/召回率（recall）度量。
令R(u)是根据用户在训练集上的行为给用户作出的推荐列表，而T(u)是用户在测试集上的行为列表。
召回率定义为：
$Recall=\frac{\sum\limits_{u\in{U}}|R(u)\cap{T(u)}|}{\sum\limits_{u\in{U}}|T(u)|}$
准确率定义为：
$Precision=\frac{\sum\limits_{u\in{U}}|R(u)\cap{T(u)}|}{\sum\limits_{u\in{U}}|R(u)|}$
Recall和Precision可以看另外一篇笔记【ML-QA-0】机器学习模型评估。

3、覆盖率

覆盖率（coverage）描述一个推荐系统对物品长尾的发掘能力。
覆盖率有不同的定义方法，最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为U，推荐系统给每个用户推荐一个长度为N的物品列表R(u)。那么推荐系统的覆盖率可以通过下面的公式计算：
$Coverage=\frac{|U_{u\in{U}}R(u)|}{|I|}$
覆盖率为100%的系统可以有无数的物品流行度分布。为了更细致地描述推荐系统发掘长尾的能力，需要统计推荐列表中不同物品出现次数的分布。如果所有的物品都出现在推荐列表中，且出现的次数差不多，那么推荐系统发掘长尾的能力就很好。因此，可以通过研究物品在推荐列表中出现次数的分布描述推荐系统挖掘长尾的能力。如果这个分布比较平，那么说明推荐系统的覆盖率较高，而如果这个分布较陡峭，说明推荐系统的覆盖率较低。
在信息论和经济学中有两个著名的指标可以用来定义覆盖率。
信息熵：
$H=-\sum\limits_{i=1}^{n}p(i)\log{p(i)}$
这里 $p(i)$ 是物品i的流行度除以所有物品流行度之和。
基尼系数（Gini Index）：
$G=\frac{1}{n-1}\sum\limits_{j=1}^{n}(2j-n-1)p(i_j)$
这里， $i_j$ 是按照物品流行度p()从小到大排序的物品列表中第j个物品。

4、多样性

为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域，即推荐结果需要具有多样性。
多样性推荐列表的好处用一句俗话表述就是“不在一棵树上吊死”。尽管用户的兴趣在较长的时间跨度中是一样的，但具体到用户访问推荐系统的某一刻，其兴趣往往是单一的，那么如果推荐列表只能覆盖用户的一个兴趣点，而这个兴趣点不是用户这个时刻的兴趣点，推荐列表就不会让用户满意。反之，如果推荐列表比较多样，覆盖了用户绝大多数的兴趣点，那么就会增加用户找到感兴趣物品的概率。因此给用户的推荐列表也需要满足用户广泛的兴趣，即具有多样性。
多样性描述了推荐列表中物品两两之间的不相似性。
假设 $s(i,j)\in{[0,1]}$ 定义了物品i和j之间的相似度，那么用户u的推荐列表R(u)的多样性定义如下：
$Diversity=1-\frac{\sum\limits_{i,j\in{R(u),i\not={j}}}s(i,j)}{\frac{1}{2}|R(u)|(|R(u)|-1)}$
而推荐系统的整体多样性可以定义为所有用户推荐列表多样性的平均值：
$Diversity=\frac{1}{|U|}\sum\limits_{u\in{U}}Diversity(R(u))$
从上面的定义可以看到，不同的物品相似度度量函数 $s(i, j)$ 可以定义不同的多样性。如果用内容相似度描述物品间的相似度，我们就可以得到内容多样性函数，如果用协同过滤的相似度函数描述物品间的相似度，就可以得到协同过滤的多样性函数。

5、新颖性

新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。在一个网站中实现新颖性的最简单办法是，把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。评测新颖度的最简单方法是利用推荐结果的平均流行度，因为越不热门的物品越可能让用户觉得新颖。因此，如果推荐结果中物品的平均热门程度较低，那么推荐结果就可能有比较高的新颖性。

6、惊喜度

惊喜度（serendipity）是最近这几年推荐系统领域最热门的话题。
如果推荐结果和用户的历史兴趣不相似，但却让用户觉得满意，那么就可以说推荐结果的惊喜度很高，而推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。
定义惊喜度需要首先定义推荐结果和用户历史上喜欢的物品的相似度，其次需要定义用户对推荐结果的满意度。
提高推荐惊喜度需要提高推荐结果的用户满意度，同时降低推荐结果和用户历史兴趣的相似度

7、信任度

对于基于机器学习的自动推荐系统，同样存在信任度（trust）的问题，如果用户信任推荐系统，那就会增加用户和推荐系统的交互。同样的推荐结果，以让用户信任的方式推荐给用户就更能让用户产生购买欲，而以类似广告形式的方法推荐给用户就可能很难让用户产生购买的意愿。
提高推荐系统的信任度主要有两种方法。
首先需要增加推荐系统的透明度（transparency），而增加推荐系统透明度的主要办法是提供推荐解释。只有让用户了解推荐系统的运行机制，让用户认同推荐系统的运行机制，才会提高用户对推荐系统的信任度。
其次是考虑用户的社交网络信息，利用用户的好友信息给用户做推荐，并且用好友进行推荐解释。这是因为用户对他们的好友一般都比较信任，因此如果推荐的商品是好友购买过的，那么他们对推荐结果就会相对比较信任。

8、实时性

在很多网站中，因为物品（新闻、微博等）具有很强的时效性，所以需要在物品还具有时效性时就将它们推荐给用户。
推荐系统的实时性包括两个方面。
首先，推荐系统需要实时地更新推荐列表来满足用户新的行为变化。
实时性的第二个方面是推荐系统需要能够将新加入系统的物品推荐给用户。

9、健壮性

健壮性（即robust,鲁棒性）指标衡量了一个推荐系统抗击作弊的能力。
算法健壮性的评测主要利用模拟攻击。首先，给定一个数据集和一个算法，可以用这个算法给这个数据集中的用户生成推荐列表。然后，用常用的攻击方法向数据集中注入噪声数据，然后利用算法在注入噪声后的数据集上再次给用户生成推荐列表。最后，通过比较攻击前后推荐列表的相似度评测算法的健壮性。如果攻击后的推荐列表相对于攻击前没有发生大的变化，就说明算法比较健壮。

10、商业目标

很多时候，网站评测推荐系统更加注重网站的商业目标是否达成，而商业目标和网站的盈利模式是息息相关的。
不同的网站具有不同的商业目标。比如电子商务网站的目标可能是销售额，基于展示广告盈利的网站其商业目标可能是广告展示总数，基于点击广告盈利的网站其商业目标可能是广告点击总数。因此，设计推荐系统时需要考虑最终的商业目标，而网站使用推荐系统的目的除了满足用户发现内容的需求，也需要利用推荐系统加快实现商业上的指标。

总结

本节提到了很多指标，其中有些指标可以离线计算，有些只能在线获得。但是，离线指标很多，在线指标也很多，那么如何优化离线指标来提高在线指标是推荐系统研究的重要问题。