聚类分析典型应用

1. 聚类分析的典型应用场景

聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分，类似这种目标群体的分类就是精细化经营，个性化运营的基础和核心，只有进行了正确的分类，才可以有效进行个性化和精细化的运营，服务及产品支持等。

常见业务应用场景如下

1.1 目标用户的群体分类

通过对特定运营目的和商业目的所挑选出的指标变量进行聚类分析，把目标群体划分成几个具有明显特征区别的细分群体，从而可以在运营活动中为这些细分群体采取精细化，个性化的运营和服务，最终提升运营的效率和商业效果（如把付费用户按照几个特定维度，如利润贡献，用户年龄，续费次数等聚类分析后得到不同特征的群体）

1.2不同产品的价值组合

企业可以按照不同的商业目的，并依照特定的指标标量来为众多的产品种类进行聚类分析，把企业的产品体系进一步细分成具有不同价值，不同目的的多维度的产品组合，并且在此基础分别制定和相应的开发计划，运营计划和服务规划（如哪些产品畅销毛利率又高，哪些产品滞销且毛利又低）

1.3探测，发现离群点，异常值

这里的离群点指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的数据行为特征很不一致（***如某B2C电商平台上，比较昂贵，频繁的交易，就有可能隐含欺诈的风险尘封，需要风控部门提前关注，监控）

聚类分析的其他应用场景

聚类产生的类别作为一个新的字段加入其他的模型搭建过程中，作为细分群体的建模依据
通过对变量进行聚类，可以检查数据的共线性，对同一分组内的变量相关性较高，通过数据变换或筛选精简变量

2. 常用聚类分析算法

常用聚类分析方法

sklearn.cluster主要函数列表

3. 聚类分析在实践应用中的重点注意事项

在数据挖掘中，由于针对大规模数据集所采用的聚类算法主要是K-Means算法，**本节的具体内容都是针对K-Means算法进行阐述

3.1处理数据噪声和异常值

K-Means算法对噪声和异常值非常敏感，针对聚类中数据噪声和异常值，常用处理方法

直接删除哪些比其他任何数据点都要原理聚类中心点的异常值，为了防止误删，需在多次聚类循环中监控这些异常值，然后依据业务逻辑与多次循环的结果进行对比，再决定是否删除异常值。
随机抽样，作为稀有事件的数据噪声和异常值能被随机抽进样本中的概率会小很多，而且其聚类后的结果作为聚类模型可以应用到剩余的数据集中（直接用该聚类模型对剩余的数据集进行判断）

3.2 Z-Score标准化

可以为聚类计算中的各个标量赋予相同的权重，也可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级差异

3.3 聚类变量的筛选

参与聚类的指标变量如果太多，会显著增加运算时间，更重要的变量之间的相关性会严重损害聚类的效果，并且太多的变量参与会使随后的聚类群体的业务解释变得更加复杂

围绕具体分析的目的和业务需求挑选聚类变量
通过相关性检查，对明显线性相关的几个变量通过数据变换或者选取其中一个进入聚类分析
主成分分析法降维（会造成聚类结论的可解释性，可理解性上相对原始变量而言更复杂）
聚类核心指标与非聚类业务指标结合（先通过用户行为属性里的核心字段进行聚类分群，在得到比较满意的聚类分类人群后，针对每个具体细分对象群体，再分别考察用户的个人属性，如工作，年龄，收入。如果个人属性在聚类分类后的群体仍有明显的区别或特征，将丰富业务特征）

4.聚类分析在实际应用中的优缺点

优点

算法成熟，可靠。长期的商业事件应用已经证明它是一个非常不错的数据群体细分的工具和方法
比较容易用商业和业务的逻辑来理解和解释，可理解，可解释在数据化运营实践中非常重要
K-Means算法具有简介高效的特点，其算法的事件复杂度与数据集的大小呈正相关性
K-Means算法不依赖顺序的算法，给定一个初始类分布，无论样本算法的顺序如何，聚类分类的结果都是一样的

缺点

需事先指定聚类的类目K，在实践中，需测试多个不同的K值才能根据效果比较来选择最适合的K值
算法对数据噪声和异常值比较敏感，由于K-Means算法是采用均值作为每个聚类的聚类中心，所以异常值会严重干扰正常聚类中心的计算，造成聚类失真

5.聚类分析结果的评价体系和评价指标

对于任何模型的评估，包括聚类分析的评估纪要考虑统计学意义上的指标，维度，同时更要关注其实践效果上的价值及业务背景下的价值

5.1 业务专家的评估

业务专家对聚类结果进行评判时不仅只是对结果的合理性，理解性进行评判，跟重要的是结合具体应用的业务场景进行评判，聚类结果是否具有落地应用价值或者说落地应用前景。

5.2 聚类技术的评价指标

通过聚类指标来看
Python 分群指标
https://blog.csdn.net/sinat_26917383/article/details/70577710

通过散点图看，是否聚类的是你想要的。

聚类结果可视化工具TSNE，TSNE提供一种有效的数据降维方法，让我们可以在2维或者3维空间中展示聚类结果

from sklearn.manifold import TSNE
tsne = TSNE()
tsne.fit_transform(data_zs)
#进行数据降维，data_zs样本数据Z-score标准化后数据
tsne = pd.DataFrame(tsne.embedding_,index=data_zs.index)
tsne['type'] = model.labels_ #聚类分类后簇标签
sns.stripplot(x=0,y=1,hue='type',data=tsne ,jitter = True)
#绘制散点图，以颜色区分簇

看每个聚类的各个指标的平均值，如果各个指标的值都很明显区分，可以业务上解释，即为聚类效果好。

5 聚类分析典型案例

5.1 案例背景

案例为一般消费场景中，通过将客户的消费行为数据转换成RFM特征数据，通过聚类分析对目标客户进行群体分类，找出有价值的特定群体。

RFM是指影响企业销售和利润的客户行为字段里的最重要的3个变量
R(Recency)客户消费新鲜度，指客户最后一次购买的时间距离目前的天数（或月数）
F(Frequency)客户消费频度，是指客户迄今为止的特定时间段内购买公司产品的总次数
M(Monetary)客户消费金额，是指客户迄今为止的特定时间段内购买公司产品的总金额
3个变量的排列顺序是严格的，对于客户是否会再次购买，R最重要，F其次，M最末

5.2 数据摸底

os.chdir('D:\数据挖掘实战')
data = pd.read_excel(r'consumption_data.xls',index_col='Id')#读取数据

消费行为特征数据

样本无缺失值，通过对样本绘制分布散点图，可以看到客户数据消费频数低，但消费金额高，由于并不清楚样本的业务类型及业务情况，无法判断这些数据是否为异常值，不处理这些数据。

plt.figure()
sns.stripplot(x='F',y='M',data=data)#绘制分布散点图

分布散点图

5.3 基于消费行为特征数据聚类分析的初步结论

data_zs =1.0*(data-data.mean())/data.std()
#数据标准化处理
from sklearn.cluster import KMeans
k = 8 #聚类簇数
model = KMeans(n_clusters= k,n_jobs = 4)
#n_jobs并发数，一般与CPU核数相同
model.fit(data_zs)#开始聚类
data['type']=model.labels_
r = data.groupby('type').mean()
r['样本个数'] =data['type'].value_counts()
r['样本个数占比'] = r['样本个数']/data['type'].count()
r['样本个数占比'] = r['样本个数占比'].map(lambda x:'%.2f%%'%(x*100))
r.columns =[['R均值','F均值','M均值','样本个数','样本个数占比']]

聚类数据结论表格

考虑到部分群体内样本数量太少，在实际应用中可以忽略不计，上述聚类结论中比较代表性的群体如下

第0组，该组用户数量229个，占样本总量24%，消费新鲜度均值15天，消费频数均值3.72次，消费金额均值323.57元，根据业务理解，该群体消费能力较低，可理解为低价值用户。
第1组，该组用户数量128个，消费新鲜度均值14.6天，消费频数均值18.06次，消费金额均值1673.92元，该组与第5组（用户数量124个，消费新鲜度均值15天，消费频数均值19次，消费金额均值1055.56元）各指标非常相识（除消费金额差别较大以外），合计共占样本总量26.8%，该群体可理解为高价值客户
第2组，该组用户数量175个，消费新鲜度均值15.6天，消费频数均值5.7次，消费金额均值1024.37元，该组与第3组（用户数量167个，消费新鲜度均值14.4天，消费频数均值5.38次，消费金额均值1024.37元）各指标非常相识（除消费金额差别较大以外），合计共占样本总量26.8%，该群体可理解为中等值客户

最后编辑于：2018.11.30 19:03:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345