不会大数据,也能读懂关联分析

关联分析(规则)即挖掘关联现象,从大量数据当中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。关联关系包含简单关联、时序关联及因果关联等,这些关联有的产生于经验之中,但并不总是事先知道,而是通过数据库中数据的关联分析获得的,其对商业决策具有重要的价值,常用于实体商店或电商的跨品类推荐,购物车联合营销,货架布局陈列,联合促销,市场营销等,来达到关联项互相销量提升与共赢,提升用户体验,减少上货员与用户投入时间,寻找高潜用户。

例如:洗发水与护发素的套装;超市牛奶与面包间临摆放;电商的购买该产品的用户又买了XX。当然,这些都是对商品关联特性的应用,那么问题来了,你应该向客户推荐点什么,他才能买单呢?还有,拿到数据结果你敢信么?面对不可思议的数据现象你如何拍着胸脯说:按我说的办?

这就是本文想通过案例,要为大家介绍的:

1.关联分析的基本思想

2.如何绕过关联分析中的坑

3.关联分析的拓展

1.关联分析的基本思想

关联分析是一种在大规模数据集中寻找某种关系的任务,这种关系有两种形式:频繁项集或者关联规则。频繁项集是经常出现在一块的物品的集合;关联规则暗示两种物品之间可能存在很强的关系。下面举个栗子来说明——用户订单明细:

数据集

我们对这个数据集进行关联分析,可以找出频繁项集,即关联规则{手机}→{数据线},它代表的意义是:购买了手机的顾客会购买数据线,这个关系不是必然的,但是可能性很大。

名词含义:

1、事务:每一条数据称为一个事务,例如数据集中就包含四个事务(订单号)。

2、项:每条数据的每一个物品称为一个项,例如手机、酒等。

3、项集:包含零个或多个项的集合叫做项集,例如{手机, 数据线}、{手机, 数据线、酒}。

4、k−项集:包含k个项的项集叫做k-项集,例如{酒}叫做1-项集,{手机, 数据线}叫做2-项集。

5、支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{手机, 数据线}出现在事务 1、2中,所以它的支持度计数是2。

6、支持度:支持度计数除于总的事务数。例如上例中总的事务数为4,{手机, 数据线}的支持度计数为2,所以支持度(手机&数据线)=50%,说明有50%的人同时买了手机和数据线。

7、频繁项集:支持度大于或等于某个阈值的项集就叫做频繁项集。例如阈值设为40%时,因为{手机, 数据线}的支持度是50%,所以它是频繁项集。

8、前件和后件:对于规则{手机}→{数据线},{手机}叫做前件,{数据线}叫做后件。

9、置信度:对于规则{手机}→{数据线},{手机, 数据线}的支持度计数除于{手机}的支持度计数,为这个规则的置信度。置信度(手机|数据线)=2÷3=66.7%,说明买了手机的人中66.7%也买了数据线。

10、强关联规则:大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则

对于规则{数据线}→{手机}置信度为100%,也就是说买了数据线的用户全都买了手机,那么我们就该向买了数据线的用户推手机么?并非如此。

例如:共有10000个用户下单,其中8000个用户买了电脑,80个用户买了杯子,有40个用户同时买了杯子和电脑,可以算出:

支持度(电脑&杯子)=40/10000

置信度(电脑|杯子)=(40/10000)/(80/10000)=50%

即有一般买了杯子(小众)的人买了电脑(热销),但其实电脑本身就是高销售,高热度,电脑的销量并不是由买了杯子的用户带了的提升,由此,提出第11个名词

11、提升度:{电脑}→{杯子}=置信度(杯子→ 电脑)/支持度(电脑)=(40/10000)/(8000/10000)=0.5%,即:在购买了杯子的前提下购买电脑的可能性与没有购买杯子的前提下购买电脑的可能性之比,当提升度大于1时说明推荐(关联)商品的购买概率比未推荐前有所提高。

结论:提升度大于1的规则中,根据置信度由大到小进行排序,最后综合选择最优的关联规则

公式:

Support(支持度):表示A、B同时使用的人数占所有用户数(研究关联规则的“长表”中的所有有使用的产品的用户数)的比例。如果用P(A)表示使用A的用户比例,其他产品类推。Support=P(A&B)

Confidence(可信度):表示使用A的用户中同时使用B的比例,即同时使用A和B的人占使用A的人的比例。Confidence=P(A&B)/P(A)

Lift(提升度):表示“使用A的用户中同时使用B的比例”与“使用B的用户比例”的比值。Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)

2.如何绕过关联分析中的坑

a.注意清洗数据:清洗人为因素影响的规则。例如:购买商品即送XX,赠品数据的去除。当分析师做出关联分析后,看到几条看似合乎常理,且置信度和提升度很高,兴奋不已的去告诉客户,从数字上确实没问题,但是捆绑销售商品是不能确定有很好地提升效果的,更可能悲剧的是被业务同事鄙视,所以分析前要了解业务营销、销售形式,对全年大盘有所了解,确保去除人为因素,数据即消费者自主行为。

b.不可忽视的业务经验。业务经验即消费行为场景,比如买烟的人习惯买一个火机,即使数据结果可能展示非此情况,但场景商品搭售不容忽视。

c.注意关联购买对单品购买的影响。关联捆绑交叉销售需要让用户买更多的东西,所以多会对毛利产生影响,即降档刺激消费销量,当主品和副品毛利均很低的商品不建议捆绑;同时,捆绑销售一定会不同程度影响原商品销量,比如绑了品质及其恶劣的商品。

3.关联分析的拓展

A.多商品关联:关联规则分为多维关联规则和单维关联规则, 通常,关联规则具有:X=>Y的形式,即:A1^…^Am=>B1^…^Bn的规则,其中, Ai (i属于{1,…,m}), Bj (j属于{1,…,n})是属性-值对。关联规则X => Y解释为“满足X中条件的数据库元组多半也满足Y中条件”。比如三维关联:对购买电脑、手机的用户爱买耳机,或者特征性数据加入:购买手机的50岁用户爱买耳机等。

B.时序关联:购买a商品后可能购买b商品

C.用户维度的关联购买,非订单维度:即时间内用户购买a商品和b商品的关联度,用于判断a,b商品是否有共同需求度,帮助营销人员做联合营销

D.高支持度低置信度:说明前者基数大,同时会伴随出现后者,这种用户也很常见需要留意

低支持度高置信度:可以从前件推断后件概率,这种用户不容忽视

低支持度低置信度:量级小,但是不排除可能

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容