物品间具有先后关系的ItemCF算法实现

简书不支持Markdown Math语法，请移步https://glassywing.github.io/2018/06/28/spark_linear_itemcf/

传统的ItemCF算法，物品间不具有先后关系，可以任意进行推荐。这样的算法并不适用某些场景（见下文背景），对于此类场景，对ItemCF算法进行了扩展，使其可以依据当前用户使用的物品进行推荐。

注意：该算法只是在原有的ItemCF实现上进行了扩展，它只能根据当前使用的物品推荐下一个物品，并不记忆之前使用的物品（不依据上下文信息进行推荐）。

语义

构件：SOA程序模型设计过程中以实现某种功能的程序片段或模块
流程：使用多个构件进行线性组合后的以实现某种特定功能的执行过程，即SOA工作流

背景

SOA工作流中具有很多的构件，这些构件能以线性方式组合成一条流程（流程按照线性关系被依次执行）。在使用一个构件之后，可随之使用另一个后续的构件，前一个构件和后一个构件间具有严明的先后关系，即后一个构件不能反向使用前一个构件，前一个构件可以使用不同的后续构件。

由于前一个构件使用后可以使用不同的后续构件，对于新用户来说，必须翻阅文档才知道可用的下一个构件，最终才能进行选择。使操作变得相当繁琐，造成大量的时间浪费，因此需要一种能通过以往用户记录为用户推荐下一个可用构件的方式来减轻工作负担。

目标

要求用户在工作流中连接一个构件后，推荐出下一个可用的构件，下一个构件按照预测的用户评分从高到低进行排列，并可指定推荐的构件数量。

数据存储格式

用户历史行为日志

用户历史记录以表：history表示，其中userId表示用户ID，compId表示构件ID，folloCompId表示使用了compId后使用的构件ID，count表示用户使用了comp之后又继续使用folloComp的使用次数。

userId	compId	followCompId	count
1	1	2	1
1	1	3	2
2	1	2	1
2	1	4	3

算法说明

相似度度量算法

这里我们选择使用同现相似度作为相似度度量标准：

同现相似度公式

$$ w(x,y)=\frac{|N(x)\cap{N(y)}|}{|N(x)|} $$

公式中分母是喜欢物品x的用户数，而分子则是同时对物品x和物品y感兴趣的用户数。因此，上述公式可用理解为对物品x感兴趣的用户有多大概率也对y感兴趣 (和关联规则类似)

但上述的公式存在一个问题，如果物品y是热门物品，有很多人都喜欢，则会导致W(x, y)很大，接近于1。因此会造成任何物品都和热门物品交有很大的相似度。为此我们用如下公式进行修正:

改进型同现相似度公式

$$ w(x,y)=\frac{|N(x)\cap{N(y)}|}{\sqrt{|N(x)||N(y)|}} $$

这个格式惩罚了物品y的权重，因此减轻了热门物品和很多物品相似的可能性。(也归一化了)

预测用户评分公式

$$ pred_{u,p}=\frac{\sum_{i\in{ratedItems(u)}}{sim(i,p)r_{u,i}}}{\sum_{i\in{ratedItems(u)}}{sim(i,p)}} $$

公式中u指用户，p值物品，ratedItems(u)指用户u评价过的物品，sim指相似度（item之间的），r指用户对使用过的物品i的评分（这里指使用次数）。

算法实现

计算过程

假设现在用户1在流程中连接了一个构件a，在用户历史记录中，构件a之后可用的构件有b和c。根据同现相似度的定义，计算过程如下：

多少用户使用了a之后使用过b：numAToB
多少用户使用了a之后使用过c：numAToC
多少用户使用了a之后既使用过b又使用过c: numAToBC
通过相似度计算公式计算b和c之间的相似度: simBC
按照用户评分公式预测用户1对b，c的评分
按照评分高低从高到低进行排列

具体实现

物品相似度计算

统计在使用了第一个构件后又使用第二个构件的用户数量:

通过在用户历史原表上按(compId,followCompId)进行聚合计数操作，可以得到在使用了第一个构件后又使用第二个构件的用户数量：

表：numRaters

compId followCompId numRaters

1 2 2

1 3 1

1 4 1
将表numRaters和表history进行内联操作，并忽略掉count：

表：historyWithSize

userId compId followCompId numRaters

1 1 2 2

1 1 3 1

2 1 2 2

2 1 4 1
将表historyWithSize和表historyWithSize按照(userId, compId)进行内联并按照followCompId1 < followCompId2进行过滤：

userId compId followCompId1 numRaters1 followCompId2 numRaters2

1 1 2 2 3 1

2 1 2 2 4 1
统计在使用过comp后既使用过followComp1又使用过followComp2的用户数，使用列size表示：

compId followCompId1 numRaters1 followCompId2 numRaters2 size

1 2 2 3 2 1

1 2 2 4 1 1
计算followComp1和followComp2的相似度：

表：similarities

compId followCompId1 followCompId2 cosSim

1 2 3 0.5

1 2 4 0.7

compId	followCompId	numRaters
1	2	2
1	3	1
1	4	1

userId	compId	followCompId	numRaters
1	1	2	2
1	1	3	1
2	1	2	2
2	1	4	1

userId	compId	followCompId1	numRaters1	followCompId2	numRaters2
1	1	2	2	3	1
2	1	2	2	4	1

compId	followCompId1	numRaters1	followCompId2	numRaters2	size
1	2	2	3	2	1
1	2	2	4	1	1

compId	followCompId1	followCompId2	cosSim
1	2	3	0.5
1	2	4	0.7

对用户进行推荐

要计算用户对物品的兴趣度，需要首先获取用户的历史行为，由于用户连接一个构件后才进行推荐，因此用户历史记录以(userId, compId)进行限制：

userId compId followCompId count timestamp

1 1 2 1

1 1 3 2

2 1 2 1

2 1 4 3
将指定用户的历史表history与表similarities按照(compId, followCompId)做内联操作，获得用户感兴趣的物品与其它物品的相似度：

userId compId followCompId1 followCompId2 cosSim cosSim * count as simProduct

1 1 2 3 0.5 0.5

1 1 3 2 0.5 0.5

2 1 2 4 0.7 2.1

2 1 4 2 0.7 2.1
按照(userId, compId, followCompId2)分组计算用户对其构件的评分：

userId compId followCompId2 sum(simProduct) / sum(cosSim)

1 1 2 1

1 1 3 1

2 1 2 3

2 1 4 3

userId	compId	followCompId1	followCompId2	cosSim	cosSim * count as simProduct
1	1	2	3	0.5	0.5
1	1	3	2	0.5	0.5
2	1	2	4	0.7	2.1
2	1	4	2	0.7	2.1

userId	compId	followCompId2	sum(simProduct) / sum(cosSim)
1	1	2	1
1	1	3	1
2	1	2	3
2	1	4	3

最后编辑于：2018.06.29 09:20:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342