浅析个性化推荐&知识图谱相结合

本文首发于个人博客，可点击查看

推荐系统是一种信息过滤系统，用于预测用户对物品的“评分”或“偏好”。
-- From wikipedia

推荐系统火热，是互联网、大数据、人工智能发展的必然趋势。其可应用于各个细分领域。如：新闻微博、电商、外卖团购、视频音乐、搜索查询、社交人脉、证券股票等等。

目前推荐系统主要4种推荐方式：热门推荐、人工推荐、相关推荐、个性化推荐。

热门推荐顾名思义就是热度比较高的当下热点事件或内容，有广泛的社会关注；人工推荐是编辑或内容运营人员将优秀的文章或物品进行有针对性的推送；相关推荐则为根据当下浏览的内容按照一定的信息或关联规则进行内容推荐；个性化推荐时根据用户的历史浏览记录，通过算法和模型进行机器学习为用户自身定制化的推荐。本文重点关注个性化推荐与知识图谱相结合的方式。

产生背景

Web2.0我们常用搜索引擎获取自己需要的信息，即使现在，搜索引擎也是主流的信息资料获取途径。但使用搜索引擎的背景是目标明确的情况下，同时也需要将目标转化为搜索🔍关键字，并在巨量的结果集下筛选信息会浪费大量的时间、资源。

当用户需求较为模糊不能转化为搜索关键字时，推荐系统优势便凸显出来。

推荐系统浅析

数据收集

收集用户数据不是一蹴而就的。

也就是需要经过常说的冷启动阶段。并且，数据需要经常更新，且有时效性。会随着时间、地点、年龄等因素的变化而变化。

此处需要引入衰减机制，即让用户关键词表中的关键词喜好程度按一定周期或规律保持衰减。具体查看TF-IDF算法，此算法可返回一组某篇文本关键词TF-IDF的词对数，这些关键词最好的代表了这篇文本的核心内容，而这些关键词将本篇文章的关键程度量化。

TF-IDF算法可参考《TF-IDF及其算法》

数据又可分为显示数据和隐式数据，显示数据即用户的购买、退货、打分、点赞、收藏、评论等形式，直接表达自己的喜好。隐式数据可能使隐形的，需要深度挖掘，如：快进、重复观看、浏览、点击等等，隐式数据准确度较低，并存在很大的噪声。今日头条的内容推荐和微信看一看均提供了让用户主动优化推荐引擎的方式，让推荐数据最大程度的满足用户需求，精准描述用户画像。

建立评判标准

评判一个推荐系统的前提，是建立一个好的评判标准，不断改进算法，无限靠近评判标准。推荐系统的实际效果依赖多种因素，如用户意图、用户背景知识、对系统的熟悉度、信任度、用户界面等等。

目前推荐系统的评判标准可分为“准确度(accurary)”和“可用性(usefulness)”两种。

准确度是推荐系统的预测结果，与用户行为之间的误差。准确度还可细分为“预测准确度”和“决策支持准确度”；预测准确度又可分为“评分预测准确度”、“使用预测准确度”、“排序准确度”等，计算推荐系统对消费者喜好的预测与消费者实际喜好间的误差平均值。

预测准确度是非常重要的评判标准，却不是唯一。推荐系统的可用性一般用覆盖率(召回率)来描述，为描述推荐效果的多样性，也常采用其他的可用性指标，这些指标对推荐系统的用户体验也具有非常重要的意义，如：新颖性、惊奇性、实用性、风险、鲁棒性、隐私性、自适应性、可扩展性、推荐效率以及可解释性等等。

现有评估推荐系统的评估方法主要有：离线测评、在线测评与用户调研等.下面主要介绍离线测评：

离线测评：把数据集分成训练集和测试集，通过训练集学习优化调整模型，用测试集对模型进行测试，计算精确度和运行效率，这种方法简单、属于闭门造车，不与用户交互，不能测试出用户满意度。所以一般用户自测或内部测试。

离线测评中使用3个指标对其推荐结果进行评估：准确率（Precision）、召回率（Recall）、F值（F-measure），这3个值可从结果矩阵中评判推荐结果；具体算法详解可见历史文章《算法模型评估：准确率(Accuracy)精确率(Precision)召回率(Recall)和综合评价指标(F1-Measure)》。

召回率反应被推荐系统推荐的物品占真正喜欢的物品的比重。准确率反应推荐系统的推荐水平，能不能将用户喜欢的物品推荐给用户，而用户不喜欢的物品则不推荐。F值是准确率和召回率的加权平均，均匀的反应推荐效果。

知识图谱在推荐系统中的优势与方法介绍

大数据环境下对知识图谱的发展奠定了数据上的优势，对多源异构数据进行整合，建立更细粒度的用户实体和文章或物品实体，得到更加紧密知识相关性。因此，知识图谱在扩展实体信息、强化实体之间的联系上，有天然的优势，可为推荐系统提供强大而丰富的参考作用。在知识图谱中，实体中包含着丰富的描述性知识，而这些知识恰好可以为推荐结果提供精确性、多样性与可解释性。

将知识图谱引入推荐系统主要有3种处理方式，并非可商用，此处只做方法介绍：

基于特征的知识图谱辅助推荐

基于特征的知识图谱辅助推荐的核心是知识图谱特征学习的引入，知识图谱可提供实体之间更深层次和更长范围内的关联，知识图谱的高纬度和丰富的语义关系，使得处理起来比物品属性更复杂困难。

使用知识图谱特征学习对知识图谱进行处理，得到实体和关系的低维稠密向量表示，由此便可以较为自然的与推荐系统进行结合与交互。

使用该方式处理，根据训练次序不同又可分为3种方式，以下为3种方式的处理示意图：

基于结构的推荐模型

基于结构的推荐模型可更直接的使用知识图谱的结构，对于知识图谱中的每个实体，都进行宽度优先搜索来获取其在知识图谱中的多边关联实体，并从中得到推荐结果。

根据其所用关联实体的技术不同，有可分为向外传播法和向内聚合法：

向外传播法模拟用户兴趣在知识图谱上扩展的过程，将每个用户的历史兴趣作为知识图谱的种子集合，沿着知识图谱的链接迭代向外扩展。附示意图一张：

向内聚合法在学习知识图谱实体特征的时候聚合该实体的邻居特征表示，通过邻居聚合操作，将每个实体的特征计算都结合其临近结构信息，且权值是由链接关系和特定的实体(用户)决定，这样就同时刻画了知识图谱的语义信息和个性化兴趣。

在这里提供网上看到的几种方式作为参考：

下位实体遍历：浏览此商品或文章（实体）后还需要其他下游相关辅助物品或信息，助力或强化已知实体。例如买了手机时候有可能需要屏幕贴膜、耳机、手机保护壳等等。
组合属性遍历：根据用户搜索或浏览的信息提供临近或相似实体，以供参考。如：当浏览Thinkpad E450笔记本时，系统便推荐同价位的其他品牌笔记本如华硕、神州等等，供用户参考。
同属性遍历：相同父实体的子实体也具有相关性，当一个实体具有多个父实体，不是所有的父实体都适合被往下遍历。当用户咨询Thinkpad E450时，系统推荐台式机就不是很合适。
二元实体遍历：适合同父类实体遍历，同父类实体通常表示这两个产品互补或者相似。
多路径遍历对比：知识图谱是网状的关系，实体之间可以通过多种路径遍历得到，所以可以对遍历路径进行对比得到较为合适的路径。

基于知识图谱表示学习的协同过滤

基本思想是对于协同过滤计算出来的最邻近物品，系统推荐给用户，而对于该用户喜欢的物品在语义上相似的物品，同样推荐给用户。相对于协同过滤推荐算法，仅使用推荐算法，加入内涵知识（知识图谱）会得到更好的效果，推高推荐的可用性。

此方法将推荐物品嵌入到一个低维空间，然后计算物品之间的语义相似性，生成语义相似性矩阵，最终得到物品的语义临近，同时也解决了推荐冷启动问题。这里给出一个TransE-CF算法处理流程图。

ChangeLog

Create 2019-04-24

参考资料

历史文章

算法模型评估：准确率(Accuracy)精确率(Precision)召回率(Recall)和综合评价指标(F1-Measure)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,671评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,442评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,524评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,623评论 1赞 275
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,642评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,584评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,953评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,621评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,865评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,608评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,698评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,378评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,958评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,940评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,173评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,419评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,425评论 2赞 342

浅析个性化推荐&知识图谱相结合

浅析个性化推荐&知识图谱相结合

本文首发于个人博客，可点击查看

产生背景

推荐系统浅析

推荐方式