客户分群

一、什么是客户分群?

将现有消费群体按一定规则分成若干个特征鲜明的小群体,从而使得:

* 不同组别间特征差异明显;

* 同一群组内客户特征相似。


二、为什么要客户分群?

* 客户群体分化,大众化营销失去优势,精准化营销逐渐被认可;

* 可深入了解客户,提升消费者对品牌的黏性,提升销售的效率和效益;

* 减少不必要的营销经费和花费。


三、聚类算法:

1、层次聚类:

(1)过程:个体两两聚合(样本间距离)--小群体两两合并(群体间距离)--较大群体两两聚合(群体间距离)--形成一个大群体;

(2)优缺点:

a、不足:由于反复计算距离,运算速度较慢;

b、优点:

* 可以是分类或连续性变量

* 既可对变量聚类(R型聚类),也可对记录聚类(Q型聚类)

* 一次运行即可得到完整的分类序列

2、K-means聚类

(1)含义:将所有观测分成k个群体,是的群体间距离尽量大,同时群体内部的观测的‘距离和’最小,由于运算简单,因此是目前流行的聚类方法。

(2)聚类步骤:设定要分群的组数(K)--随机每组的中心--逐一计算每一记录到各组中心点的距离,将离中心最近的个体归到对应的组--重新计算均值,以此作为再次迭代的中心--用新的中心点重新对个体进行归组,及重复前面两步骤,直到达到要求

(3)优缺点:

a、优点:

* 速度快于层次聚类

* 内存占用小

b、不足:

* 只能对记录聚类,不能对变量聚类。

* 对初始聚类中心有一定的依赖性

* 由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类。

2、EM算法:

(1)含义:最大期望(EM)算法是在概率模型中寻找参数最大似然估计,或最大后验估计的算法,其中概率模型依赖于无法观测的隐含变量。

(2)两步骤:

a、E步(Expectation)根据参数初始值或上一次迭代的模型参数来计算出隐含变量的后验概率,其实就是隐含变量的期望,作为隐含变量的现估计值。

b、M步(Maximization)将似然函数最大化以获得新的参数值。

注意:似然函数最大化指组内距离平方和最小。


四、距离计算:

1、样本间距离计算:

(1)通用公式:闵可夫斯基距离 

(2)欧式距离,即直线距离,p=2

(3)曼哈顿距离,折线距离,大于欧氏距离,p=1

(4)切比雪夫距离,p趋向无穷大,选最大距离

2、群体间距离

(1)最短距离法,指组间最近两个样本点的距离

(2)最长距离法,指组间最远两个样本点的距离

(3)重心法,群体先平均再求距离

(4)类平均法,群体先求距离再平均


五、变量选择:

1、基于业务场景选择变量

2、变量间相关性尽量低(无共线性),根据VIF和R square

3、具体可从人口统计学(个人信息数据)、商家的消费者数据(通过RFM衍生变量)、第三方行为数据(消费者的需求和兴趣)三个方面进行选择


六、如何预处理变量?

1、填充缺失值

首先确认是否错误,是否是零值;如果不是,Category可根据情况进行填充,Numeric数据可先Quantile,再用均值、中位数、线性插值等填充。

2、异常值处理

可用Caping-Floor将数据达到95%以内,(除非异常值有价值,需单独处理)

3、字符型变量转换处理

比如male 0,female 1

4、标准化(统一量纲),量纲不一致为导致距离计算的偏差

方法一:Z-Score标准化

sed(X)=(X-Xcap)/Sp

方法二:离差标准化

(x-min(x))/(max(x)-min(x))


七、初始中心点的选择

(1)选择彼此距离尽可能远的点作为中心点;

(2)先通过采样,基于层次聚类确定K个簇,以簇的中心点作为K-means的中心点输入

(3)多次随机选择中心点训练K-means,选择效果最好的聚类


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容