关联分析(规则)即挖掘关联现象,从大量数据当中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。关联关系包含简单关联、时序关联及因果关联等,这些关联有的产生于经验之中,但并不总是事先知道,而是通过数据库中数据的关联分析获得的,其对商业决策具有重要的价值,常用于实体商店或电商的跨品类推荐,购物车联合营销,货架布局陈列,联合促销,市场营销等,来达到关联项互相销量提升与共赢,提升用户体验,减少上货员与用户投入时间,寻找高潜用户。
例如:洗发水与护发素的套装;超市牛奶与面包间临摆放;电商的购买该产品的用户又买了XX。当然,这些都是对商品关联特性的应用,那么问题来了,你应该向客户推荐点什么,他才能买单呢?还有,拿到数据结果你敢信么?面对不可思议的数据现象你如何拍着胸脯说:按我说的办?
这就是本文想通过案例,要为大家介绍的:
1.关联分析的基本思想
2.如何绕过关联分析中的坑
3.关联分析的拓展
1.关联分析的基本思想
关联分析是一种在大规模数据集中寻找某种关系的任务,这种关系有两种形式:频繁项集或者关联规则。频繁项集是经常出现在一块的物品的集合;关联规则暗示两种物品之间可能存在很强的关系。下面举个栗子来说明——用户订单明细:
我们对这个数据集进行关联分析,可以找出频繁项集,即关联规则{手机}→{数据线},它代表的意义是:购买了手机的顾客会购买数据线,这个关系不是必然的,但是可能性很大。
名词含义:
1、事务:每一条数据称为一个事务,例如数据集中就包含四个事务(订单号)。
2、项:每条数据的每一个物品称为一个项,例如手机、酒等。
3、项集:包含零个或多个项的集合叫做项集,例如{手机, 数据线}、{手机, 数据线、酒}。
4、k−项集:包含k个项的项集叫做k-项集,例如{酒}叫做1-项集,{手机, 数据线}叫做2-项集。
5、支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{手机, 数据线}出现在事务 1、2中,所以它的支持度计数是2。
6、支持度:支持度计数除于总的事务数。例如上例中总的事务数为4,{手机, 数据线}的支持度计数为2,所以支持度(手机&数据线)=50%,说明有50%的人同时买了手机和数据线。
7、频繁项集:支持度大于或等于某个阈值的项集就叫做频繁项集。例如阈值设为40%时,因为{手机, 数据线}的支持度是50%,所以它是频繁项集。
8、前件和后件:对于规则{手机}→{数据线},{手机}叫做前件,{数据线}叫做后件。
9、置信度:对于规则{手机}→{数据线},{手机, 数据线}的支持度计数除于{手机}的支持度计数,为这个规则的置信度。置信度(手机|数据线)=2÷3=66.7%,说明买了手机的人中66.7%也买了数据线。
10、强关联规则:大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则
对于规则{数据线}→{手机}置信度为100%,也就是说买了数据线的用户全都买了手机,那么我们就该向买了数据线的用户推手机么?并非如此。
例如:共有10000个用户下单,其中8000个用户买了电脑,80个用户买了杯子,有40个用户同时买了杯子和电脑,可以算出:
支持度(电脑&杯子)=40/10000
置信度(电脑|杯子)=(40/10000)/(80/10000)=50%
即有一般买了杯子(小众)的人买了电脑(热销),但其实电脑本身就是高销售,高热度,电脑的销量并不是由买了杯子的用户带了的提升,由此,提出第11个名词
11、提升度:{电脑}→{杯子}=置信度(杯子→ 电脑)/支持度(电脑)=(40/10000)/(8000/10000)=0.5%,即:在购买了杯子的前提下购买电脑的可能性与没有购买杯子的前提下购买电脑的可能性之比,当提升度大于1时说明推荐(关联)商品的购买概率比未推荐前有所提高。
结论:提升度大于1的规则中,根据置信度由大到小进行排序,最后综合选择最优的关联规则
公式:
Support(支持度):表示A、B同时使用的人数占所有用户数(研究关联规则的“长表”中的所有有使用的产品的用户数)的比例。如果用P(A)表示使用A的用户比例,其他产品类推。Support=P(A&B)
Confidence(可信度):表示使用A的用户中同时使用B的比例,即同时使用A和B的人占使用A的人的比例。Confidence=P(A&B)/P(A)
Lift(提升度):表示“使用A的用户中同时使用B的比例”与“使用B的用户比例”的比值。Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)
2.如何绕过关联分析中的坑
a.注意清洗数据:清洗人为因素影响的规则。例如:购买商品即送XX,赠品数据的去除。当分析师做出关联分析后,看到几条看似合乎常理,且置信度和提升度很高,兴奋不已的去告诉客户,从数字上确实没问题,但是捆绑销售商品是不能确定有很好地提升效果的,更可能悲剧的是被业务同事鄙视,所以分析前要了解业务营销、销售形式,对全年大盘有所了解,确保去除人为因素,数据即消费者自主行为。
b.不可忽视的业务经验。业务经验即消费行为场景,比如买烟的人习惯买一个火机,即使数据结果可能展示非此情况,但场景商品搭售不容忽视。
c.注意关联购买对单品购买的影响。关联捆绑交叉销售需要让用户买更多的东西,所以多会对毛利产生影响,即降档刺激消费销量,当主品和副品毛利均很低的商品不建议捆绑;同时,捆绑销售一定会不同程度影响原商品销量,比如绑了品质及其恶劣的商品。
3.关联分析的拓展
A.多商品关联:关联规则分为多维关联规则和单维关联规则, 通常,关联规则具有:X=>Y的形式,即:A1^…^Am=>B1^…^Bn的规则,其中, Ai (i属于{1,…,m}), Bj (j属于{1,…,n})是属性-值对。关联规则X => Y解释为“满足X中条件的数据库元组多半也满足Y中条件”。比如三维关联:对购买电脑、手机的用户爱买耳机,或者特征性数据加入:购买手机的50岁用户爱买耳机等。
B.时序关联:购买a商品后可能购买b商品
C.用户维度的关联购买,非订单维度:即时间内用户购买a商品和b商品的关联度,用于判断a,b商品是否有共同需求度,帮助营销人员做联合营销
D.高支持度低置信度:说明前者基数大,同时会伴随出现后者,这种用户也很常见需要留意
低支持度高置信度:可以从前件推断后件概率,这种用户不容忽视
低支持度低置信度:量级小,但是不排除可能