近期拜读了于洋等人出的《游戏数据分析的艺术》,书中后半部分提到的一些游戏数据挖掘方法很有启发,于是蒙发了拿公司的页游产品数据进行尝试的想法。
这一次的尝试是付费道具关联,我们很期待能找到类似沃尔玛”尿布与啤酒“的关系。主要分为两种关联类型,一种是道具-道具间的关联,譬如买了A&B的人有多少几率会买C;另二种是细分群体道具间的关联,譬如不同等级段位的人与同一道具间的关联程度。
使用的工具是SPSS MODELER,采用了关联算法中的Apriori进行规则探索。
软件算出规则后,我们主要依据以下指标判断规则是否“有趣”:
在进行建模之前,我们需要对数据进行预处理,主要考虑:
1)排除长尾:该产品总共有多达四位数的付费道具,如果对每个道具都进行关联并没有必要。实际上20%的道具贡献了80%的收入,而长尾部分的购买率非常低,即时分析出有趣的关联,也并不适合做营销组合(实际上根本过不了支持度的阈值),因此我们选择清洗掉长尾;
2)排除运营活动的影响:有部分购买率很高的道具,可能是由于当期运营活动的影响,这部分的道具显然应该被排除。实际的做法是对比各个道具多个月的购买率,清洗掉那些波动很大的部分;
对经过处理的数据进行关联,将得出以下四种类型的规则,从跑出来的结果看:
1)高支持度高置信度:这种结果当然是很理想的,但是实际上这种类型的规则绝大多数是常识性的(譬如付费打通倒数第二关的人极可能也会付费打通最后一关),或者是游戏本身的设计驱动的(譬如开了VIP的人很有可能买首冲优惠礼包)
2)低支持度高置信度/高支持度低置信度:这两种结果从数据角度来讲并不太理想,但是它对我们来说可能是有趣的。例如我们发现养成类的某些某个热销单品与某些非必须的养成类商品存在关联。那么我们在运营活动中,就可以设计当用户购买完该热销单品后,弹出这些关联的商品,进行搭配推销;又比如我们发现注册一个月内的首冲用户与某些产品存在较强的关联,那么我们可以据此更科学地设计首冲优惠礼包。
3)低支持度低置信度:这种类型的规则我们可能感兴趣,但是发生的概率会很低,即使运用起来做运营活动所能覆盖的用户可能也非常有限。
上述的方法,仍是一个“采集历史数据-分析建模-指导运营”的过程。理想情况下,上述操作中被洗掉的长尾以及那些低支持度低置信度的规则是不应被清洗的,因为程序应当能在用户进行游戏时,便自动根据用户的标签来定义该用户的类型,从而向他推送符合其特征的营销内容,从而达到精细化运营的目的。感觉在游戏行业,对大数据的利用远不如电商来得成熟有效,隐约觉得游戏的架构似乎不适合做这一块,继续探索下去的空间还有多大呢?
近期想为团队补充一些做游戏数据分析的专业人才,但是一轮招聘下来发现专职做数据分析的人,大多数只是停留在指标体系监测的部分,真正有算法建模经验的人不多,BI都谈不上,更别提AI。懂大数据算法的人,发展前景是非常广阔的。