项目介绍
通过对销售后台的10000条销售数据,使用Excel进行进行多维度拆解分析,制作可视化看板。
- 未制作完成,等以后有时间再弄
- 不过我认为使用excel制作可视化看板确实比较复杂,不如用python+powerBI来的实在
项目过程
- 观察数据(查看数据内容,观察是否存在缺失数据、重复数据、空白行等内容)
- 数据处理(添加需要的字段以及拆分字段)
1.观察数据
使用Excel打开数据文件,观察数据源情况如下:
1.1 查看数据大小
通过点击列或行可在状态栏查看数据大小:
- 共有9973条数据,19个标签
1.2 查看缺失及脏数据并处理
(1)打开筛选,依次选择每个标签的空白或其他异常数据
(2)根据列标签,判断是删除空白行还是进行随机填充
通过shift+左击选择第一个单元格至最后一个单元格,按del进行删除整行。
-
在此数据集中对“订单日期”,“细分”,“产品ID”字段缺失的行全部删除,其余的可根据其他完整字段进行填充
(3)比如国家字段中,出现了“0”,“中”等异常数据,可以直接填充为“中国”(数据集仅为中国区域数据)
全部填充操作步骤:
- 选中第一栏
- 按住ctrl+shift+↓键,全选当前列所有行数据
- 输入“中国”,按ctrl+enter进行全部填充
1.3 空白行
可通过单选第一行多列数据,按住ctrl+shift+↓,若直接定位在末尾则表示无空白行,在数据中间中断则直接定位到空白行。1.4 重复数据处理
此数据集中,订单ID是可以重复的(同一订单有多件商品),但可以通过行ID查看是否重复值。
1.5 将日期改为文本类型
2.数据处理
2.1 增加年龄字段
可以通过提取身份证号码中的生日信息,再与当年日期进行相减,提取出年龄信息
知识点:
- mid(str,x,y):根据传递的参数,取第x位置的y个字符
- now():当前时间
- year(x):x的当前年份
- 移动鼠标至单元格右下角,出现"+"号双击,即可全部行填充
2.2 年龄异常
由于身份证号码有误,出现年龄100的情况,也有可能出现年龄过大的异常数据,现在进行条件筛选,剔除年龄>100的用户;新增一列,通过if函数,增加“删除”“保留”标签,通过对这一列的删除进行筛选,选取后删除行。
2.3 增加性别列
通过身份证号倒数第二位判断该用户性别,奇数为男性,偶数为女性。
单元格公式如下:
- 通过MOD求余函数判断奇偶性,再通过IF添加性别。
2.4 拆分 “产品ID列” 为 “ID”,“类别”,“子类别”
选择数据→分列→分隔符号选择“其他”输入“-”
分隔结果:
2.5 增加产品单价列
为方便对商品进行产品分析,通过销售额/数量/(1-折扣) 得出商品单价,并新增列
3. 统计分析
3.1 增加年龄区间
=IF(AND(E2>16,E2<=20),"16-20",IF(AND(E2>20,E2<=25),"20-25",IF(AND(E2>25,E2<=30),"25-30",IF(AND(E2>30,E2<=40),"30-40",IF(AND(E2>40,E2<=50),"40-50","50+")))))
3.2 从不同维度统计人数与销售总额
(1)新添加一张表1,将需求列出
)
(2)新添加一张表2,删除重复用户ID,保留性别、年龄区间、细分、城市、区域等字段统计总人数,
全选数据,选择“数据”→“删除重复项”→关键字选择用户ID
总人数:
=COUNTA(去重用户!A2:A791)
男女人数:
=COUNTIF(去重用户!C$2:C$791,A4)
总人数使用counta函数统计所有非空数量,其他维度数据使用countif统计数量
结果如下:
(3)新添加一张表3,将不需要的字段删除(例如编号、发货日期等)