【火炉炼AI】机器学习033-构建电影推荐系统

(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )

电影推荐系统内部最关键的部件是推荐引擎，和汽车的发动机一样，推荐引擎的作用是产生数据动力，提供数据计算方案。从本质上说，推荐引擎时一个能预测用户兴趣点的模型。对于不同的具体项目要求，推荐引擎也是不一样的，本文主要介绍专门用于电影推荐系统的推荐引擎构建方法。

推荐引擎非常重要，比如在电商网站中，经常有庞大的商品目录，而用户不太可能查找所有的相关内容，这时候就需要推荐引擎来构建合适的推荐系统，将用户可能感兴趣的商品推荐到用户页面。我们经常在购物中看到，你点击了笔记本电脑的页面，系统会给你推荐鼠标，键盘等商品，其内部就是使用了推荐引擎。

1. 寻找数据集中的相似用户

推荐引擎的一个非常重要的任务是寻找相似的用户，这样，为一位用户生成的推荐信息也可以推送给与之相似的其他用户。

下面用代码来查找与特定用户相似的其他用户，用到了上一篇文章中的Pearson 相关系数计算函数。下面代码的思路是：首先判断user是否存在dataset中，然后计算user对所有其他user的相关系数，放置到一个list中，然后再对这个list进行逆序排列，取最前面的K个用户，即可找到与user最相似的K个用户。

def find_similar_users(dataset, user, user_num=3):
    if user not in dataset: # 首先保证user在dataset中
        raise TypeError('User {} not in dataset!'.format(user))
    
    # 对于所有用户，计算其与user的相似度，此处使用Pearson相关性
    scores=np.array([[other_user,pearson_score(dataset,user,other_user)] for 
                         other_user in dataset if other_user!=user])
    # 相关性都存放在scores这个二维矩阵中，故而可以通过排序来寻找相似用户
    scores_sorted=np.argsort(scores[:,1])[::-1] # 先排序取坐标，再逆序
    # 获取最前面的user_num个相似用户
    top_users=scores_sorted[:user_num]
    return scores[top_users] # 返回这些user的信息

通过导入movie_ratings数据后，计算与John Carson最相似的4个用户，如下：

# 使用电影数据来寻找相似用户
import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())

user='John Carson'
similar_users=find_similar_users(dataset, user, 4)
print('Users similar to {}---->>>'.format(user))
print('User\t\t\tSimilarity Score\n')
for item in similar_users:
    print('{}\t\t{}'.format(item[0],round(float(item[1]),3)))

-------------------------------------输---------出--------------------------------

Users similar to John Carson---->>>
User Similarity Score

Michael Henry 0.991
Alex Roberts 0.747
Melissa Jones 0.594
Jillian Hobart 0.567

--------------------------------------------完-------------------------------------

2. 创建电影推荐引擎

假设我们现在有多个用户对某几部电影的评价分数，那么怎么构建一个电影推荐引擎？给那些已经看过一部分电影的用户推荐其他没有看过的但是很相关的电影？

这些电影评分数据都存放在movie_ratings.json文件中，这个文件的第一个层是用户名，第二层是电影名称和该用户给该电影的评分。给用户A推荐电影的内在逻辑是，先找出与用户A相似度比较高的多个用户，然后找出这些相似用户已经评分过但是用户A没有评分的电影集合，这些电影表示用户A没有看过但是其他相似用户看过，我们推荐的电影就从这个电影集合中选取，那么怎么选取了？需要构建一个选取标准，此时我们可以计算电影推荐分数，该分数用相似度和电影评价分数相乘得到。可以认为，相似度越高的用户，其看过的电影越推荐，这些用户评分越高的电影，表示质量越高，越要推荐给用户A.

基于以上逻辑，编写的代码如下：

# 创建电影推荐引擎
def get_recommendations(dataset,user):
    if user not in dataset: # 首先保证user在dataset中
        raise TypeError('User {} not in dataset!'.format(user))
    
    total_scores={} # 存放的key为电影名称，value为对该电影的评价乘以相似度
    similarity_sums={} # 存放的key为电影名称，value为相似度
    for other_user in dataset:
        if other_user ==user: continue  # 确保是其他用户而非自身
        similarity_score=pearson_score(dataset,user, other_user) 
#         print('other user: ', other_user, 'similarity: ', similarity_score)
        if similarity_score<=0: continue # 如果相似度太小则忽略
        
        # 找到还未被该用户评分,但是却被other_user评分过的电影
        # 这部分电影表示相似的other_ser已经看过但是user没有看过的电影，
        # 推荐的电影肯定来自于这部分
        user_not_rating_movies=[]
        for movie in dataset[other_user]: # other_user评分过的电影
#             if movie not in dataset[user] or dataset[user][movie]==0: 
            if movie not in dataset[user]: 

                # 但是user没有评分过，或者user评分为0(是不是系统认为没有评分那评分就是0）)
                user_not_rating_movies.append(movie)
#         print(user_not_rating_movies)
        # 计算这些user没有评分过的电影的推荐分数，
        # 推荐分数此处用该电影的评价乘以相似度表示
        for movie in user_not_rating_movies:
            recommend_score=dataset[other_user][movie]*similarity_score
            total_scores.update({movie: recommend_score})
            similarity_sums.update({movie: similarity_score})
#         print('other user: ', other_user, 'total_scores: ', total_scores)
    # 判断total_scores，如果推荐的总数为0，表示所有电影都被user评价过，则不推荐
    if len(total_scores) ==0: return [[0,'No Recommendations']]
    
    # 计算每个电影的推荐等级
    movie_ranks=np.array([[rec_score/similarity_sums[movie],movie] for 
                         movie, rec_score in total_scores.items()])
    # 对第一列进行逆序排列
    movie_ranks_desc=movie_ranks[np.argsort(movie_ranks[:,0])[::-1]]
#     print(movie_ranks_desc)
    return movie_ranks_desc

最后计算一下几个用户的推荐的电影列表，如下：

import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())

user='John Carson'
movie_ranks=get_recommendations(dataset,user)
print('Recommended movies to {}---->>>'.format(user))
for idx, recommend in enumerate(movie_ranks):
    print('{}: {}-->recommend score: {}'.format(idx, recommend[1], recommend[0]))

user='Michael Henry'
movie_ranks=get_recommendations(dataset,user)
print('Recommended movies to {}---->>>'.format(user))
for idx, recommend in enumerate(movie_ranks):
    print('{}: {}-->recommend score: {}'.format(idx, recommend[1], recommend[0]))

-------------------------------------输---------出--------------------------------

Recommended movies to John Carson---->>>
0: No Recommendations-->recommend score: 0
Recommended movies to Michael Henry---->>>
0: Jerry Maguire-->recommend score: 3.0
1: Inception-->recommend score: 3.0
2: Anger Management-->recommend score: 2.0

--------------------------------------------完-------------------------------------

########################小**********结###############################

1，构建电影推荐系统一般有几个步骤：先找出相似用户，然后找出相似用户看过的电影而用户A没有看过的电影，最后对这些电影建立一种推荐分数，其分数越高的越值得推荐，最后对这些分数逆序排列，即可得到推荐列表。

2，关键是要搞清楚推荐逻辑，并建立推荐算法，这些算法可能会随实际应用场景不同而不同。

#################################################################

注：本部分代码已经全部上传到（我的github）上，欢迎下载。

参考资料:

1, Python机器学习经典实例，Prateek Joshi著，陶俊杰，陈小莉译

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

【火炉炼AI】机器学习033-构建电影推荐系统