目录 :
案例一 : 互联网电商群组留存分析
案例二 : Boss直聘''数据分析''岗位分析及可视化
附 : 数据分析流程及数据清洗常用方法
电商互联网行业关注方向 :
- 用户
- 渠道
- 产品
- 营销
- 营收
平台类 : 淘宝 , 京东等 , 纯粹提供平台服务赚取费用
B2C类 : 当当 , 唯品会等 , 直面用户销售产品
用户指标 :
- 登录次数 , 感兴趣的商品 , 收藏 , 比较过的商品
- 基于登录行为判断用户是否并打标签
渠道推广指标 :
- 站外渠道 , 展示页 , 落地页 , 转化页
- 浏览量 , 注册量 , 购买量 , 转化率 , 访问时间 , 跳出率
- 访问用户量 , 广告投入 , 获客成本(cpc , cpa)
产品指标 :
- 进销存 : 产品宽度 , 深度 , 销售数量(畅销 , 滞销) , 库存数 , 周转率
- 产品留言 , 产品评分 , 产品浏览行为
- 用户关注度 , 好评 , 差评 , 产品功能卖点
营销指标 :
- 广告
- 打标签 , 打情怀 , 价格 , 实用性
- 猜你想看 , 关联推荐 , 即时优惠 , 大数据杀熟
- 基于用户画像的推荐系统 , 个性化推荐
分析流程 :
数据准备
- 导包连库读数据
- head()看头了解字段
- info()查看有无null值
数据清洗
- 单独取null字段数据判断是否可以去除或者填充0或1
开始分析
- 客户留存以自然月为单位区间 , 从原数据中抽出包含月份的字段筛选后新增一列月份标签为后续分析做铺垫
- 查看每个月总订单数按月排序
- 从简到繁 , 由部分到整体 , 先分析一个月在下一个月的客户留存
1 . 分别记录存储当月与下月客户 , 用成员运算符判断留存客户数
2 . 预想最终要得到的二维客户留存表的字段 , 用数组分别构建每条结果集(预设值默认0或null)和结果字段(月份) - 双重for循环遍历 , 外层控制每月新增客户(需排除前面所有月留存客户) , 内层控制该月后的每一月留存客户
- 对统计结果汇总 , 拼接 , 展示 , 分析留存率值的变化对当前销售情况的影响
技术点
取值df.loc[要取字段] , 取单字段返回series , 取多字短返回dataframe , 返回值可继续调用df内置方法 , 如 :
- isnull() 空值
- value_counts() 分组统计条数
- astype() 改变数据类型
- sort_index() 排序
- groupby(分组字段) 分组
- sum() 分组后聚合求和
- reset_index() 重置索引分组后series转回dataframe
- unique() 返回不重复值
- pd.concat() 拼接dataframe
数据获取
- 用爬虫爬取招聘网站来自北上广深杭五个城市共4000+条数据类岗位招聘信息
分析预备
- 导包连库读数据
- 熟悉字段 , head() , 数据类型 , 数据格式
数据清洗
- info() 查看有无null值 , 对null值做删除 or 填充0或1 or 无处理
- [有重复数据去重]
- 清洗position字段 , 清除异常值 , 模糊匹配关注关键词
- 清洗salary_range字段 , 单独拆分为最低薪资 , 最高薪资 , 平均薪资三列
- 清洗work_year字段 , 单独拆分为学历 , 工作年限两列 , 去除实习岗位
- 清洗city字段 , 统一格式化为只含城市名
- 清洗text字段 , 单独拆分为融资情况和公司规模两列 , 去除没有融资情况的数据
- 统一岗位名称便于后续分析 , 重置索引 , 清洗完毕
分析思路
1. 数据类岗位整体需求
- 分别对不同学历 , 不同工作经验 , 岗位分布 , 公司融资情况 , 公司类别 , 薪水选择合适的图形绘制展示 , 结合经验分析总结每张图能挖掘出来的信息
2. 城市 , 学历 , 工作经验对薪水的影响
- 对城市和薪资分布区间分组统计绘制堆积柱状图 , 进行各城市之间薪资区间对比分析
- 对不同学历对应的平均薪资绘制箱线图 , 分析对比各学历薪资上下限
- 对不同工作年限对应的平均薪资绘制箱线图 , 分析对比工作年限与薪资上下限总体成正比关系
3. 不同岗位对应的学历要求 , 薪水分布情况
- 绘制不同岗位需求情况的饼图 , 统计各岗位数量
- 对薪资区间分布分组统计各岗位数量占比 , 绘制折线图观察需求趋势
- 对学历分组 , 绘制每种学历对应的不同岗位需求的横向簇型柱状图 , 分析各岗位在不同学历中占比
4. 公司一般会用什么福利待遇来吸引求职者
- 清洗数据提炼出所有福利关键字 , 对关键字分组统计绘制词云图
5. 不同岗位要求的关键技能点是什么
- 将不同岗位对应的不同技能标签合并提取后计数 , 绘制各岗位技能标签词云图
技术点
- df.drop_duplicates(inpalce = True) 去重数据
- series.str.contains(关键词) 模糊查询 , 返回布尔series , 可用做df布尔取值
- df.apply(函数 , 轴) 对行或列按指定函数运算出结果 , 可搭配匿名函数与真值表达式使用
- df.apply(lambda x: 语句1或自定义函数 if 条件1 else (语句2 if 条件2 else 语句3) , axis = 轴向)
- str.find(字符串) 找到返回索引 , 未找到返回 -1
- ~bool 对布尔值取反
- series.plot(kind = 绘图形状 , [stack = 是否堆叠True or False] , figsize = 图大小元组 , width = 线宽 , alpha = 透明度) 绘制折线 , 柱状 , 条形图
- pd.cut(series , bins = 区间临界值列表 , labels = 区间标签列表) 对指定序列按区间划分
- 分组后聚合后的堆叠数据.unstack() 取消堆叠还原回dataframe
- dataframe.boxplot(column = 指定箱线图分析的列 , by = 分组字段进行多组合箱线图 , figsize = 图大小元组) 绘制箱线图
- groupby类型.agg({聚合字段 : 聚合函数列表}) 对groupby分组后的数据聚合 , 可用于多列或多聚合函数统计或单图绘制多折线并列柱状图
- wordcloud = WordCloud(width = 宽 , height = 高 , background_color = 背景颜色 , font_path = 字体路径 , max_word = 最大显示字数 , stopwords = 停用词 , relative_scaling = 词频与字大小关系系数默认0.5 , mask = 遮罩图 , random_state = 字图分布值) 生成词云样式
- wordcloud.fit_words(series) 生成词云图
- plt.imshow(wordcloud) 显示词云图
- plt.axis = ('off') 不显示轴
附 :[3]
数据分析流程 :
明确目的 --> 获取数据 --> 清洗数据 --> 探索数据 --> 建模分析 --> 结果交流
数据清洗:
定义 : 将获取的原始"脏数据"(残缺数据 , 错误数据 , 重复数据 , 不符合规则的数据...)转换为"干净的数据"(可以直接代入模型计算符合后续分析的数据)
数据清洗常用方法 :
数据的读写 :
- pd.read_csv('文件路径')
- pd.read_excel('文件路径')
数据的探索与描述 :
- df.info()
- df.describe()
简单的数据处理 :
- 去除数据间的空格,大小写字母转换等
重复数据的处理 :
- duplicated()
- drop_duplicates()
缺失值的处理 :
- 删除缺失值
- 填充0或1
- 向前 / 后填充
- 均值填充
- 模型填补 , 如Random Forest
异常值的处理 :
- 删除异常值
- 作为缺失值处理
- 均值修正 , 盖帽法修正
- 不作处理 —— 业务分析挖掘价值
文本字符串的处理 :
- 去除前后空格
- 处理中间有空格()等数据 , 常用方法replace('要替换的字符' , '替换后的字符')
- 正则表达式提取所需数据
时间序列的处理 :
- 将系统时间格式化
- 系统时间和时间戳相互转换
- 提取年 , 月 , 日