利用聚类算法研究大数据微信公众号实例

聚类分析可以用在APP及网站数据分析、用户画像分析上。

1.什么是聚类分析

聚类分析就是把看得见的实体对象(如桌子、人、树木等)或看不见的抽象对象(如情绪、观念等)进行分组,将它们中具有类似特征的对象划分到一块,形成很多总体特征不同的“小团体”,同时这个过程是人为主观的—最终由我们来给这些分类及其特征下定义,从而在具体的业务场景中应用它们。生活中我们经常讲“物以类聚,类以群分”,说的就是不同的人和事物因特征的相似而归并成一类,形成了很多大大小小的分组/类。

人以群分

聚类分析作为一种多元统计分析方法,其目的在于按照个体或样本的特征将其分类,使得同一类别下的个体具有尽可能高的同质性,而不同类别/组别之间则是尽可能高的异质性。

举例来讲,有2个不同的爱好者组成的松散组织—球迷协会、摄影协会。球迷协会中清一色的足球狂热者,个个谈起足球来眉飞色舞;摄影协会内的成员个个手握“长枪短炮”,最大的爱好就是对着美女和美景一通“咔咔”。这2个团体中的成员“臭味相投”,有共同的爱好和志趣;而作为集体的球迷协会和摄影协会,因团体各自的偏好不同,毫无共性,小团体和小团体之间的价值观和思想倾向也大相径庭。

图片发自简书App

主要步骤

复杂的原理就不说了,怕大家看着发晕,这些环节我就一带而过,因为在接下来的分析中我会用鲜活的案例让大家好好“反刍”一下。进行聚类分析的工具是SPSS 20.0,用的聚类方法是K-means聚类法,进行分析的步骤分为4个环节,及数据预处理、定义距离函数、聚类或分组及评估结果。

图片发自简书App

我就以一个公众号为例做个分析

1.案例背景

某新媒体培训机构的账号,从去年年初的1月中旬到7月中旬,时间跨度刚好半年。半年时间里,推文近200篇(包含副文,即第二、第三图文)。我们接下来要分析的原材料就是这段期间的文章数据、粉丝数据。

做这个聚类分析的主要目的在于:

发现其中质量较好的文章及质量最差的文章,从数据中发掘出它们,并发现它们身上存在的特征,以便将优良文风(选题、标题、内容、排版设计等)发扬下去,并避免以后再出质量不佳的文章,以期阅读量、转发分享量的提升,最终实现凭借公众号自身内容促进粉丝增长的目的。

2.数据预处理和选择聚类方法

按上述抓取数据的方法获得原始数据,需要注意的是,作分析的时候,需要将主副图文分开分析,因为一般情况下越往下所获得的点击量/阅读量就越低,分析只在同一层级的图文中进行,然后再在各类层级中进行总的内容分析。本文接下来的分析以主图文为主。

主副图文分析要分开

对获取的原始数据中的异常值进行剔除,即除去数据中明显异常大或异常小的数据值,以免对整体分析形成干扰。

将上述Excel原始数据导入SPSS中,检查一下数据的“度量标准”是否有误。“度量标准”下面有四种类型的数据,即名义、序号、度量。其中,名义是对数据分类的数据类型,如姓名、标题等;序号是对数据进行排序得到的变量;度量则是数据进行测量得到的数值型变量。在原始数据中,日期、标题和发文时间点等数据也属于名义型变量(时间点在SPSS中不分析),其他的变量皆为度量变量,是着重分析的变量。

数据预处理后,按“分析à分类àK-均值聚类”的路径选择聚类方法。


选择K-均值聚类(K-means聚类)方法

打开“K-均值聚类”会话框,将其中的变量输入到“变量”框中,在“保存”项里,勾选“聚类成员”“与聚类中心的距离”这两项,以便运算后将得到的分类信息显示在表格里,判断分类。

其中,最重要的一环是选择“聚类数”,这里需要根据经验和数据的数量来确定,有时需要进行“试错”。我依次按2次、3次、5次、6次和7次进行运算,发现输入5次得到的“解”最为理想,分类不多不少,特征很突出,有分析和参考的价值。

进行“聚类分析”选项设置

设置好项目后,进行确定,得到如下图所示的运算结果:

聚类分析运算结果

注意上图中红色虚线框部分的数据,分别是“分类数据”和“距离分类中心距离”的数据,然后将结果另存为“excel2007至2010”格式,得出的数据和spss中所呈现的保持一致。

输出数据

3.处理经聚类分析得到的数据

先将得出的数据进行替换处理,即分类数据中的“1”“2”…“5”替换成“第一类“”第二类”…”第五类“,然后再

进行透视表处理,各个变量在“值字段设置“里皆取平均值,见下表:

运用透视表处理经聚类分析得到的数据

经透视表处理好数据后,将该数据“全选”并“粘贴”“复制”到新的sheet里,以便按之前的评价指标体系将不同类型数据进行分类整理。将各数据进行“热力图示化”,以颜色深浅和冷暖显示数值的高低差异,直观的反映数据的大小变化情况。从而得到下表:

微信文章质量评估体系表

从上表中可以看到,近200篇文章可以分为5类,按照上述提及的微信文章质量评估体系,每一类的特征都不一样(以下各指标的程度由低到高依次分为“非常差-较差-一般-较好-非常好”,这种比较在这5个类别之间进行,具有相对性):

第一类:传播力非常强,在一周内传播时效性显著,但粉丝增长度低,且文章具有非常高的价值(对目标用户来说很“值”),同时相应的粉丝也非常活跃,;

第二类:文章一周内的传播力较强,粉丝增长量较高,文章的价值度较高,粉丝活跃性良好;

第三类:文章传播效率地,粉丝取关量大,文章价值度低,粉丝活跃性非常差;

第四类:文章传播效率一般,粉丝增长量较大,文章价值度一般,粉丝活跃度一般;

第五类:文章传播效率一般,粉丝增长度一般,文章价值度一般,粉丝活跃度一般。

如果微信运营的经验不足和对数据不敏感,可以进一步将上述指标数据值进行标准化,乘以权重系数(根据过往经验和公司强调的KPI来决定)后相加,从而使多指标合并起来(如粉丝增长指标=-取消关注标准值*权重1+新关注数标准值*权重2+净增粉丝数标准值*权重3),在同一维度的不同分类下的指标值可以进行比较,其大小用“”和“”的五角星来表示,得到这5类文章各指标的量化表:

微信文章质量量化评估表

各个分类的特征明晰之后,我们需要找到各分类对应的文章,查看他们的标题、内容和发文时间点,也就是上文所提及的“文章信息指标”,值得注意的是,此处通过函数“weekday”可以查询出发文日属于“周几”,多添加一个“时间维度”对于我们分析发文时间很有帮助。结果如下表所示:

各分类下的具体图文信息

从中可以看到,其中有些广告性的一篇软文会在不同日期出现很多次,这是为了达到一定的营销转化目的,我们在分析时仅保留最初的一篇。

分析的顺序是这样的:先分析文章质量最佳的和最差的,然后再分析一般性的文章所具有的特点。

聚类分析在运营中的延伸应用

1.细分市场

市场细分

聚类分析是细分市场的有效工具,可以帮我们在做市场/运营战略决策时找到新的、可行的潜在市场。通过市场调研,我们可以获取本公司和主要竞争者是品牌方面的“第一提及知名度”、“提示前知名度”和“提示后知名度”等指标值,将这些作为聚类分析的变量,将本公司和潜在对手的产品或品牌进行划分。在聚类以后,结合每一产品/品牌的多维度属性研究,可以发现哪些属性组合目前还没有融入所要进行的产品/品牌中,从而找到公司在市场中的机会,不至于身处竞争激烈的市场“红海”中。

2.用户画像


用户画像的主要维度

聚类分析可以用来发现不同的用户群体,并且通过消费者的人口统计学特征、社会属性和消费属性来刻画出不同的用户群体的特征,也就是对不同的用户群体进行“用户画像”分析。我们在网站上、APP上获取了大量的用户数据后,通过分组聚类出具有相似浏览行为的用户,并分析用户的共同特征,可以更好的帮助我们了解自身的产品/服务所面向的顾客,以便我们能及时做出适销对路的产品/服务,或是及时的产品/服务优化。

结语

通过这个实际案例,大家应该能领略到聚类分析的魅力了吧。但是,运营喵要说的是,聚类分析方法只是“术”,是工具而已,重要的是对运营事务的深刻理解,以及一整套的数据分析流程(也可以称之为“数据分析方法论”)。根据上面的实际案例,运营喵认为数据分析的整个流程应该是这个样子的:


数据分析的一整套流程
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容