一、数据理解和整理
原始是数据集中共有12个字段,每个字段共537578行,制作数据字段表如下:
二、业务理解如下:
零售行业无论线上还是线下都可以从“人”,“货”,“场”三个维度进行思考
结合对数据的理解,分析思维如下:
三、数据导入MySQL
1)、检查导入 的数据
四、数据预处理
1)增加主键
2) 删除重复项
没有重复项
3)缺失值处理(建表的时候,已经默认非空了,如果有空值的话需要再处理一下)
五、MySQL处理数据
1、消费者维度
1).不同性别的消费者的人数和消费水平.
消费者中,男士人数是女士人数的2.5倍左右,金额是女士的3.3倍。男士目前是购物节的主力军。
2).不同年龄段的消费人数和消费水平
消费者中年龄段在26-35,36-45 消费人数占总人数的54%,消费金额占到总金额的60%,为重要消费人群。而0-17,55+的消费人数占总人数的10%,金额占总金额的7%.
-- 不同年龄段用户人均消费
消费者在51-55年龄段,消费金额平均值最高。意义不是很大,每个年龄段的平均金额相差都不大。
3)、已婚和未婚消费者的消费人数和消费水平
消费者中未婚人数占60%,金额大约占60%,消费能力与婚姻状况无关。
2、商品维度
1)哪些商品在”黑五"期间最受欢迎
消费者购买最多的10大商品,其中p00265242最大,在产品类别1中1的类别占了7各,重点关注。
--哪些商品在”黑五"期间最受男士欢迎
男士消费者购买最多的10大商品,其中p00265242最大,产品类别1中的1类别 非常受欢迎。
----哪些商品在”黑五"期间最受女士欢迎
女士消费者购买最多的10大商品,其中p00265242最大,产品类别1中的5类别 比较受欢迎。
2) 不同年龄段消费者中那些商品最受欢迎
-- 18-25 年龄段
--26-35 年龄段
--36-45年龄段
3)已婚和未婚消费者中那些商品最受欢迎
--未婚消费者最欢迎的10大商品
--已婚消费者最欢迎的10大商品
3、城市维度
B城市的产品销售数量占比42%,销售金额总体占比41%,最强劲。
-- 每个城市的消费频率和人均消费金额
A,B城市消费频率高,c城市消费频率很低,需要分析一下。
六、数据可视化-分析