一、什么是客户分群?
将现有消费群体按一定规则分成若干个特征鲜明的小群体,从而使得:
* 不同组别间特征差异明显;
* 同一群组内客户特征相似。
二、为什么要客户分群?
* 客户群体分化,大众化营销失去优势,精准化营销逐渐被认可;
* 可深入了解客户,提升消费者对品牌的黏性,提升销售的效率和效益;
* 减少不必要的营销经费和花费。
三、聚类算法:
1、层次聚类:
(1)过程:个体两两聚合(样本间距离)--小群体两两合并(群体间距离)--较大群体两两聚合(群体间距离)--形成一个大群体;
(2)优缺点:
a、不足:由于反复计算距离,运算速度较慢;
b、优点:
* 可以是分类或连续性变量
* 既可对变量聚类(R型聚类),也可对记录聚类(Q型聚类)
* 一次运行即可得到完整的分类序列
2、K-means聚类
(1)含义:将所有观测分成k个群体,是的群体间距离尽量大,同时群体内部的观测的‘距离和’最小,由于运算简单,因此是目前流行的聚类方法。
(2)聚类步骤:设定要分群的组数(K)--随机每组的中心--逐一计算每一记录到各组中心点的距离,将离中心最近的个体归到对应的组--重新计算均值,以此作为再次迭代的中心--用新的中心点重新对个体进行归组,及重复前面两步骤,直到达到要求
(3)优缺点:
a、优点:
* 速度快于层次聚类
* 内存占用小
b、不足:
* 只能对记录聚类,不能对变量聚类。
* 对初始聚类中心有一定的依赖性
* 由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类。
2、EM算法:
(1)含义:最大期望(EM)算法是在概率模型中寻找参数最大似然估计,或最大后验估计的算法,其中概率模型依赖于无法观测的隐含变量。
(2)两步骤:
a、E步(Expectation)根据参数初始值或上一次迭代的模型参数来计算出隐含变量的后验概率,其实就是隐含变量的期望,作为隐含变量的现估计值。
b、M步(Maximization)将似然函数最大化以获得新的参数值。
注意:似然函数最大化指组内距离平方和最小。
四、距离计算:
1、样本间距离计算:
(1)通用公式:闵可夫斯基距离
(2)欧式距离,即直线距离,p=2
(3)曼哈顿距离,折线距离,大于欧氏距离,p=1
(4)切比雪夫距离,p趋向无穷大,选最大距离
2、群体间距离
(1)最短距离法,指组间最近两个样本点的距离
(2)最长距离法,指组间最远两个样本点的距离
(3)重心法,群体先平均再求距离
(4)类平均法,群体先求距离再平均
五、变量选择:
1、基于业务场景选择变量
2、变量间相关性尽量低(无共线性),根据VIF和R square
3、具体可从人口统计学(个人信息数据)、商家的消费者数据(通过RFM衍生变量)、第三方行为数据(消费者的需求和兴趣)三个方面进行选择
六、如何预处理变量?
1、填充缺失值
首先确认是否错误,是否是零值;如果不是,Category可根据情况进行填充,Numeric数据可先Quantile,再用均值、中位数、线性插值等填充。
2、异常值处理
可用Caping-Floor将数据达到95%以内,(除非异常值有价值,需单独处理)
3、字符型变量转换处理
比如male 0,female 1
4、标准化(统一量纲),量纲不一致为导致距离计算的偏差
方法一:Z-Score标准化
sed(X)=(X-Xcap)/Sp
方法二:离差标准化
(x-min(x))/(max(x)-min(x))
七、初始中心点的选择
(1)选择彼此距离尽可能远的点作为中心点;
(2)先通过采样,基于层次聚类确定K个簇,以簇的中心点作为K-means的中心点输入
(3)多次随机选择中心点训练K-means,选择效果最好的聚类