提出问题
- 日PV有多少
- 日uv有多少
- 付费率情况如何
- 复购率是多少
- 漏斗流失情况如何
- 用户价值情况
理解数据
- 数据集共104万条,内容2014年11月18日-2014年12 月18 日用户行为数据,公共6列
- user_id:用户身份
- item_id:商品ID
- behavior_type:用户行为类型(点击、收藏、加购物车、 支付分别用1,2,3,4表示)
- user_geohash:地理位置
- item_category:品类ID(商品所属的类别)
- time: 用户行为发生时间
数据清洗
-
导入模块,数据
-
了解数据
- user_id,item_id需要转换数据类型,time需要转化数据类型,添加新列date,和hour,用于写下来的统计
- user_geohash 用大量缺失值,别的列没有缺失值
-
数据类型转化,添加新列
用户行为分析
pv和uv
- pv(访问量):即Page View 具体指网站的页面浏览量或者点击量
- uv(独立访客):即访问您网站的一台电脑客户端为一个访客
日访问量分析
- pv和uv,数量级差距大,折线的波峰是双十二的时候
- uv在10000左右。
不同时段访问量
- 0-5点访问量快速下降,5点到时10点,pv,uv上升,而到18点后访问量活跃度上升。
根据类型对访问量分析
- 四种用户行为的波动情况基本一致,从图2可以看出,加入购物车这一用户行为的pv总量高于收藏的总量。
用户的购买情况
用户的购买次数
日ARPPU
- ARPPU :从每位付费用户获得的收入 ARPPU=总收入/活跃用户付费数
人均消费次数=消费总次数/消费人数
- 付费人数的平均消费次数在2次左右,双12的时候在4 次左右
活跃用户数平均消费次数=消费总次数/活跃用户人数
- 付费次数在当天的活跃人数占比是0.25,双12的时候是0.5倍
同一时间段消费次数情况
- 同一时间段用户为单位消费1次的占绝大多数。
复购情况分析
复购情况,即两天以上有购买行为,一天多次购买
-
复购率=有复购行为的用户数/有购买行为的用户总数
-- 复购率:0.8717