使用Python MrJob的MapReduce实现电影推荐系统 - 大魁的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/lzt1983/article/details/8777884
电影推荐系统
假设我们现在有一个影视网站,每一个用户可以给电影评1到5分,现在我们需要计算每两个电影之间的相似度,其过程是:
对于任一电影A和B,我们能找出所有同时为A和B评分过的人;
根据这些人的评分,构建一个基于电影A的向量和一个基于电影B的向量;
根据这两个向量计算他们之间的相似度;
当有用户看过一部电影之后,我们给他推荐与之相似度最高的另一部电影;
你可以从这里下载一些开源的电影评分数据,我们使用的是1000个用户对1700部电影进行的100000万个评分数据,下载后的数据文件夹包含一个README,里面有对各个文件的详细介绍,鉴于我们只需要(user|movie|rating)数据,所以我们用Python把这些数据进行一些处理: