目录:
一、分析目的
CDNow曾经是一家在线音乐零售平台,后被德国波泰尔斯曼娱乐集团公司出资收购,其资产总价值在最辉煌时曾超过10亿美元。本文主要通过分析CDNow网站的用户购买明细来分析该网站的用户消费行为,使运营部门在营销时更加具有针对性,从而节省成本,提升效率。
二、理解数据
2.1 数据集背景
CDnow于94年2月成立,同年9月成为功能完善的音乐零售网站。98年4月被雅虎公认为第一大音乐零售商。 96年引入RealAudio,允许访客在线试听。97年加入雅虎链接,开展广播节目促销,在知名杂志登广告等宣传方式,并在97年末,成为互联网领先音乐电商,市场份额约33%。
2.2 主要字段说明
user_id: 用户ID
order_dt: 消费日期
order_products:购买产品数量
order_amount: 消费金额
三、数据清洗
3.1 查看数据及数据类型
加载pandas及numpy包,并命名各字段
查看数据
查看数据类型
order_dt字段表示日期,而数据类型为整数,将进行更改;没有空缺数值,可以直接分析。
3.2 数据描述统计
通过数据统计了解到平均购买数量为2.4件,平均消费金额为35元,最大购买数量为99件,最大消费金额为1286元,有一定极值干扰,数据呈右偏分布。
调整消费日期字段为日期数据类型,同时考虑到要按月进行消费数据的分析,于是增加月字段:
四、数据分析
4.1从时间维度分析消费行为(按月)
4.1.1 每月的消费额
可视化:
由图表可以看出,消费额在前三个月达到高峰,后期消费额较稳定,并呈轻微下降趋势。且前三个月消费额都呈异常状态,考虑到有促销活动,或有大客户在一季度持续采购,但这里只有消费数据,故不能下定结论。
4.1.2 每月的订单数
原始数据中,一个用户Id就代表一行,求订单总数的过程即是求行数,同一用户有多次购买行为,每次也都会独立成为一行,也相应算作订单数。前三个月每月订单数在9000~12000之间,后续月份均保持在2000~3000左右,且有轻微下降趋势。
4.1.3每月的销售数量
由图表可以看出,每月产品销售数量与每月订单数及销售总额保持基本一致的趋势。
4.2 从消费个体维度分析消费行为
4.2.1 用户消费金额,消费次数的统计
从消费数量看,客户平均购买数量为7张CD,而中位值为3,上四分位为7,表示小部分客户购买了更多的CD,同时标准差为16,表示数据之间有较大差距,再由最大值为1033判断,数据呈右偏斜。
从消费金额看,平均消费金额为106元,而中位值为43元,上四分位和平均数一致,极值为13990元,判断同上,小部分客户在贡献了较多的消费金额。
4.2.2 用户消费金额分布
从直方图可以看到,客户消费金额绝大部分呈现集中趋势,高消费客户在图上几乎看不到。
4.2.3 用户消费数量分布
由切比雪夫定理可知,在绝大多数的数据分布中,95%的数据集中在距离平均值5个标准差之内,因此选定过滤范围100,数据依然集中在左侧,重新把范围选定在50.从直方图可知,大部分客户消费数量在5张以下,符合消费相关的数据分布。
4.2.4 用户消费金额和消费数量的关联
大部分用户消费行为都是呈线性的,在右上部分有极值出现,表明个别用户消费水平极高,把金额限定在3000以下进行过滤,查看大部分消费行为中金额和数量的对应关系。
消费金额和消费数量呈规律的线性分布,且订单极值少,原因在于CD品类的单价相似,考虑该店除CD外的周边产品较少,如CD机或其他与CD本身价格相差较大的产品。
4.2.5 用户累计消费金额占比
客户总量的50%贡献了15%的消费额;前2万名客户,约客户总量的75%贡献了40%的消费额;与此同时,排名由高到低的前5千名客户(约25%)消费金额占总数的60%。
4.3 常见指标分析
4.3.1 复购率
自然月内,购买多次的用户占比
用户在每个月的消费次数,之后进行细分,消费两次及以上为 1 (即产生复购),消费一次为 0 ,没有消费为空。
重复购买的次数除以总计消费次数得到复购率,由折线图可知,复购率稳定在 20% 左右,前三个月复购率低的原因是有大量新用户进行消费,其中绝大多数只消费了一次导致的。
4.3.2 回购率(留存率)
用户在当月的值是1表示当月有消费,值是0表示当月无消费;若客户当月值为1,下月值也为1,表示该客户在次月有回购行为。
由折线图可知,用户回购率高于复购率,约在 30% 左右,波动性较强。复购用户的消费行为与回购用户的行为大致相同,可能有一部分用户重合,属于优质用户;结合回购率和复购率分析,得出新客的整体忠诚度低于老客,老客的回购率较好,消费频率稍低。
4.4 用户分层
4.4.1 构建RFM用户模型
由图表可知,高保持客户消费金额占总客户数量最高,因此最多的销售数量也是由其产生的,其次是普通挽留客户。
从 RFM 分层可知,大部分用户为高保持客户.
4.4.2 新、老、活跃、回流、流失/不活跃(以每月是否有消费作为依据):
通过数据透视表记录每月消费次数.由图可知,用户1在1月消费1次,用户2在1月消费2次,消费几次在本段分析并不重要,而是否在当月有消费才是重要判断依据,因此设置有消费为1,无消费为0,
同时查看尾部数据发现存在客户第一次消费时间不是数据内最初的月份,因此进行判断,把第一次消费所在月份作为其消费周期的开始.
进行for循环同时if判断,若本月无消费,判断消费记录,如果为0,判断其为unregister(未注册),如果大于0,判断其为unactive(不活跃).
若本月有消费,判断其消费记录,如果为0,即为new(新客户),如果大于0,查看上一个消费记录标签,不活跃本次为return(回流客户),活跃是active(活跃用户)
分类后的用户按月进行计数统计:
由图可知,活跃用户逐渐减少,只有前三个月有新增用户,回流用户每月在1000左右,且有减少趋势;不活跃用户保持在22000左右;侧面说明运营可能出现问题,客户流失情况俞发严重。
4.5 从消费周期分析消费行为
4.5.1用户首次消费时间
由图可知,用户首次消费时间集中在前三个月,后期消费客户皆为老客户;其中2月7日至2月22日期间有剧烈波动,新用户下降,考虑是营销活动变化特别是前期活动结束,或网站因技术故障存在一定时间无法正常访问。
4.5.2 用户最后一次消费时间
用户最后一次购买时间,在前三个月呈现峰值,考虑到首次购买时间也集中出现在前三个月,说明有相当一部分比例的客户消费行为只发生了一次;最后一次购买的人数随着时间推移有上涨趋势,且在后期上涨明显,显示客户流失的状况增长,用户忠诚度下降。
4.5.3 新老客户消费比(仅消费一次的客户有多少)
新用户12026,老用户11518,基本各占一半,有一半用户消费一次后再也没有消费。
4.5.4用户购买周期(按订单)
用户购买周期描述:
用户购买周期分布:
用户购买周期呈指数分布,平均购买周期为68天,最长购买周期为533天,很多用户购买周期小于30天,可以在相应时间点做促销推送等活动。
4.5.5 用户生命周期
用户生命周期描述:
用户生命周期分布:
用户生命周期受仅购买1次客户影响较大,排除仅购买1次的客户后:
图像呈双峰结构,左侧峰值表明虽然很多客户虽然在段时间内有重复消费,但还是不能持续消费,考虑是受促销活动或节假日的影响,因此想提高客户转化率,应该在客户首次消费 30 天内进行引导;少部分客户集中在 50 - 300 天,属于普通客户,忠诚度一般;集中在 400 天以后的是高质量用户,后期人数还在增加,这批客户已经属于核心用户了,忠诚度极高,因当重点做好这部分客户的维护;从右峰值下降考虑是数据提供造成的限制,没有进行下去的数据。
五、结论
1、网站的新用户集中在前3个月,且大部分最后一次消费集中在前3个月,表明忠诚用户数量较低。随着时间出现大量用户流失,4月份后消费的用户均为老用户,且存在高价值用户。
2、大部分的用户的消费能力一般,高消费用户较少,由于网站主营的是cd产品,相对较为单一,建议网站可以发展多业务,增加产品种类,吸引更多用户进行二次消费。
3、2.8%的用户占据了80%的的订单数,且32.65%用户所消费的总金额占80%。这数据说明了这32.65%的用户是网站重点关注的对象,只需要重点维护好这批用户,业绩KPI就能完成80%。
4、从第4个月开始,活跃用户急剧下降,到6月份之后在3%~4%之间波动。
回流用户则在6月份达到了峰值,并在之后的月份波动于4%~7%之间,且有流失的趋势。建议网站可以针对这部分老用户,制定对应的会员机制,引导这部分用户做到持续消费。
5、仅一次消费的用户较多,而且复购率、回购率均不高,反应了大部分用户粘度较低,建议推出优惠活动或者定期发送短信等,提高用户粘度。