【实战案例9】商品推荐算法（1）

本篇分享适用于中小电商平台的商品推荐算法，理论与实践结合出发>>>

认真读完本篇，你会收获：
1. 为什么各个电商平台都热衷于做个性化商品推荐？
2. 常见的商品推荐场景有哪些？以及实践中的项目流程。
3. 一个完整的商品详情页实战案例，零基础也可以写推荐算法。

一、为什么各个电商平台都热衷于做个性化商品推荐？

一句话：能增加收入。

分析这个问题要从电商销售额构成来讲：GMV=流量*转化率
先来看图中这4款饮品，你喜欢蓝色清新A，还是抹茶口味B，或是焦糖浓郁D？也可以问一问身边的朋友更喜欢哪款？你们喜欢的是否是同一款？

这里我想表达的是：对于不同的顾客，偏好的饮品是不同的，如果来到店里的每位客人我们都推荐饮品A，那么喜欢饮品D的客人可能会认为这家店过于清淡不太适合自己。为了实现转化率/销售额的最大化，需要做好顾客与商品的匹配关系。
所幸电商的数据积累以及店铺商品呈现，给这个想法提供了极佳的实现条件。

二、商品推荐场景+实操流程

1. 商品推荐场景

1>按照购物流程划分，有四种常见推荐位置：首页瀑布流推荐、商品详情页推荐、购物车推荐、结算页满额加购推荐。
（用户搜索关键词的商品结果排序不在此处展开讨论）

2>按照用户的购买场景划分：有明确购物需求的搜索、直奔某品类、随便逛逛、比价、送礼等。
ps：如有更好的场景划分方法，欢迎留言哦~

2. 常用商品推荐逻辑

1> 推荐的目标：根据用户已知的信息，推测出用户可能感兴趣的商品。
$用户+已知商品\implies推测一个未知的商品$

2> 分析达到目标的路径（解题）：
如下图：如何将商品A2与用户1建立联系？
两种途径：建立用户1与用户2之间的关系1，建立商品A1与商品A2之间的关系2

3> 寻找解题线索：
从数据源头出发，电商最常见的数据分为两类：
a）用户在商城内的行为数据，如浏览、访问、停留时长等；
b）用户的下单支付数据。
基于这两类数据，可以分析用户相似度、购物篮商品关联度...

4> 如何建立关系1 or 关系2？
关系1：通过将用户在商品的行为数值化为一个N维向量，计算两两向量之间的夹角余弦值，来评估他们的相似度，又称为余弦相似性。
（余弦值区间[-1,1]，0度角的余弦值是1，夹角越小用户行为越相似）

用户行为转化为N维向量数据结构示例：

两个向量的余弦相似性计算公式：

$cos=\frac{a·b}{|a||b|}$

接下来以每个用户为中心，分别计算与其他n-1个用户的余弦相似度，需要n(n-1)次计算；
假设n=10000，计算99990000次，计算机每秒计算100次，更新一次全量用户的相似性需要11.6天；
可以看出这个计算量非常大且耗时，以及无法满足商业环境中的实时反馈要求，因此在真实环境中几乎不采用这种推荐路径。

关系2：通过将每个用户在商品上的操作作为一个购物篮，计算每两件商品出现在用一个购物篮的几率，来判断商品A与商品B之间的相似性/关联度。在本篇第三部分实战案例中，会对此方法进行详细介绍。

3. 实践中的项目流程

很多情况下，数据分析是一个相对独立且单线程工作的岗位，接收需求处理需求。当涉及到影响商城业务时，需要多团队合作，流程上的合作方/环节越多，出错的几率也会越大，这时候需要承担起项目经理的角色，更加细致认真得排查可能出现的问题。（ps：遇事不抓狂，有话好好说）

流程这里不啰嗦啦，简单概括：
1>数据调研------>>>为什么要做这件事？
2>立项------>>>确定要做这件事，准备怎么做？（需要哪些人分别负责什么？）
3>算法准备------>>>确认商品推荐的逻辑
4>功能开发------>>>商城功能是否支持个性化推荐？
5>部署测试------>>>测试环境中是否逻辑流畅？显示正常？
6>功能上线------>>>上线前的数据监控准备
7>结果数据&结论------>>>项目的结果反馈

三、实战案例

以商品详情页推荐为例，介绍相对简单的中心商品推荐逻辑。

1. 提出可以提升转化率的“假设”
2. 验证假设的方法
3. AB测试的用户分组逻辑
4. 测试时长
5. 推荐算法：从数据源到商品关系的代码实现
6. 测试结果

【1. 提出假设】
假设在商品详情页推荐用户数据归类出的相似商品，可以比运营人员根据经验设置热销品，更符合用户兴趣，推荐商品的点击率更高（从而提高加车转化率）。

【2. 验证假设的方法】
采用AB测试（控制变量法），将用户随机分为AB两组，仅在商品推荐区域有差异（如下图），对比推荐商品的点击率，验证是否B组的点击率更高。

【3. AB测试的用户分组逻辑】
一般情况下用户ID为数值格式，可以将customer_id除以2取余数即可实现分组，余数=0为A组（人工根据经验推荐），余数=1为B组（用户行为数据推荐）。（若分3组，余数分别为0-1-2，以此类推）

【4. 测试时长】
我们的业务属于饮品类，1-7天为一个购买周期，因此实验周期选择了2天。（可以根据业务的属性灵活调整）

【5. 推荐算法：从数据源到商品关系的代码实现】
1> 数据源示例（选取每个用户近期点击的商品数据，表名：data_click）

2> 计算商品之间的关联度

# 这里给出的是R语言code，使用Python/SQL的同学可以参考逻辑（代码逻辑都是类似的）
# 目标：计算每两个商品被多少个用户同时购买
data01<-sqldf('select d1.cust_id,d1.prod_name as prod01,d2.prod_name as prod02
from data_click as d1 join data_click as d2
on d1.cust_id=d2.cust_id
where d1.prod_name<>d2.prod_name',drv = 'SQLite')
data02<-sqldf('select prod01,prod02,count(distinct cust_id) as custs_union
from data01
group by prod01,prod02',drv = 'SQLite')

data02数据示例：

3> 商品关联度排序
在实际数据中会遇到热销商品与几乎每一个商品的关联度都在排前几位；
如果每个商品的推荐列表都是热销的饮品，就会畅销商品更加畅销，滞销商品更加没有曝光机会，顾客可能会认为店里就这样几款商品，导致购买商品数减少，频次降低，因此我们需要做一个降低主商品与热门物品相似的计算步骤，给长尾商品更多的曝光机会。

# 每个商品点击的用户总数
data03<-sqldf('select prod_name,count(distinct cust_id) as cust_all from data_click group by prod_name',drv = 'SQLite')
# 匹配每个商品的点击用户总数到商品关联关系表data02
res<-merge(data02,data03,by.x = 'prod01',by.y = 'prod_name',all.x = TRUE)
res<-merge(res,data03,by.x = 'prod02',by.y = 'prod_name',all.x = TRUE)
res<-subset(res,select = c('prod01','prod02','custs_union','cust_all.x','cust_all.y'))
# 降低主商品与热门物品相似，计算关联系数rate_cust
res$cust_all<-sqrt(res$cust_all.x*res$cust_all.y)
res$rate_cust<-res$custs_union/res$cust_all
# 筛选两两商品关联人数≥100（表示是强关联，可以根据业务来灵活调整参数）
res<-subset(res,custs_union>=100)
# 以中心商品prod01，降序排名关联系数rate_cust
res<-res%>%group_by(prod01)%>%mutate(rn=rank(-rate_cust))

res数据示例：

得到上图所示的商品关联关系后，就可以在每个中心商品（prod01）的推荐位展示Top6（rn≤6）的关联商品（prod02）啦！~

【6. 测试结果】

测试6.3上线，立即有显著变化：人均点击商品数从1.5个提升到1.7个，点击率从10.6%提升到12.6%；
再观测一天，数据较为稳定，从6.5开始全部调整为数据推荐。
（ps：有些业务场景会要求提前估算最小样本量以及测试结果的显著性检验，个人认为是有些概念学术化，在实际项目操作中较少遇到。）

以上就是本篇的全部内容啦，如果有任何疑问，欢迎私信小编~

基于用户的商品推荐，请关注>>>【实战案例9】商品推荐算法（2）

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

【实战案例9】商品推荐算法（1）

一、为什么各个电商平台都热衷于做个性化商品推荐？

二、商品推荐场景+实操流程

三、实战案例

推荐阅读更多精彩内容