基于图的推荐算法之Personal PageRank代码实战

背景:Personal Rank 属于协同的一种,也是为了精准的match用户感兴趣的物品,是一种基于图的推荐算法。最近在具体落地这个算法方面遇到了一些时间性能方面的问题,所以整理一下,文中不仅会涉及算法介绍,同样会涉及具体代码,以及为了优化时间所做的工作。

personal rank算法介绍:普适推荐问题中的(user,item)对,可以表示为二分图G(V,E),两类顶点分别表示用户Vu,以及物品Vi,如下图1所示 用户A点击了物品abd,用户B点击了ac,C点击了be,D点击了cd。那么可以转化为右图,右图只标示了用户A和他点击物品的连击,其余类似。该算法的核心目的是衡量出对某一固定结点,其余结点的重要程度。从而得出推荐顺序。

图1

关于如何衡量某一个结点对于另一个结点的重要程度,物理解释如下:(1)两个顶点之间的路径数是否比较多(2)两个顶点之间路径的长度是否比较短。(3)连接两个顶点的路径是否较少经过出度较大的结点。那么基于随机游走的personal rank算法是如何阐述的呢? 假设我们要给用户A推荐物品。从顶点VA开始出发,以alpha的概率从A的出边中等概率的选择一条随机游走过去,到达下一个顶点,比方说顶点a,从下一个顶点a有(1-alpha)的概率回到起点A,或者alpha的概率继续等概率游走到到顶点a的出边中。多次循环后发现,各顶点的重要度收敛。递推公式如下图2所示:


图2

这个递推公式是不是非常眼熟,将公式中(1-alpha)换成(1-alpha)/n ,那么就变成了page rank,当然page rank不会固定某一顶点。根据personal rank的递推公式很容易给出demo 代码如下。但是这个demo的时间性能非常差(n万级别用户物品点击对数据需要在spark下并行需要1个小时不能接受)

图3

根据如上代码分分析耗时主要发生在每个用户结点需要循环跌代,上述图2所示推导公式可以转化为矩阵形式这样的话运算的耗时将会降低非常多。矩阵形式推导见图4.下图中,最后结果行由于推荐是求的结点的相对重要性,所以在实际计算中1-alpha可以省略,(E-alpha*M.tranpose()) 的逆矩阵即为所有结点推荐结果的。每一列表示一个结点的结果(如果该矩阵为n*n)。r0 即为n*1矩阵,且只有一行为1,其余为0,想取出第几个结点的结果就将第几行赋值为1.

图4

由图3中G转化为M矩阵也就是转移矩阵的过程中,可以想象转移矩阵必然及其稀疏,为了节约时间以及控制以免内存error,采取稀疏矩阵的存储方式。python中关于稀疏矩阵的库是scipy.sparse. 有很多形式的稀疏矩阵类可以采用,封装的非常好,根据需要可以自行选择。api document:https://docs.scipy.org/doc/scipy/reference/sparse.html我们这里选用了coo的方式见图5(数十万点展对仅从G转化为M矩阵仅耗时0.47s左右),存储灵活,可以迅速转化成csr快速计算,也便于后续求逆。稀疏矩阵的求逆,转化为解线代方程。Ax=E,而且由于矩阵A明显是稀疏矩阵,所以解稀疏矩阵的线性方程,用到python的scipy 下面的gmres库,解释文档里说可以解(Ax=b型的线性方程,b可以是n*1或者n*多,但是一经试验发现只能用解  n*1,那么也就说每次只能解出一个用户的推荐结果单个用户解出方程,并给出topk推荐用时大约0.72s但是试想如果是数十万量级的用户串行解决肯定是行不通的,所以再求出A之后,需要进行spark并行,十万用户,数十万用户物品点击对,1主13work164vcore的集群配置下,经过repartition以及num-executor*executor-cores合理配置,占满资源20min,占一半多core可以在30min左右),图6是给出矩阵A产出的代码实现。注:单位矩阵np.eye(num) num一大就会报mem error,采用稀疏矩阵过渡。图7给出了vertex矩阵的第一个顶点的推荐顺序。关于spark程序这里就不给出了。其实就是临门一脚了。感兴趣的小伙伴可以自己尝试一下,如有问题请留言。当然大家如果想应用这个算法,需要离线评估推荐准确率,关于本文所叙述离线评估算法推荐的准确度,以及实际应用到线上的点展比,由于牵扯实际项目不方便透漏。

图5
图6
图7

我们每一步的前进都是站在巨人肩上,特别鸣谢参考文献。如需全文转载请注明出处,谢谢

参考文献:http://www.cnblogs.com/zhangchaoyang/articles/5470763.html,http://it.sohu.com/20170220/n481178384.shtml,http://blog.jobbole.com/71431/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容