数据分析项目入门案例

目录 :

案例一 : 互联网电商群组留存分析

案例二 : Boss直聘''数据分析''岗位分析及可视化

附 : 数据分析流程及数据清洗常用方法

案例一 : 互联网电商群组留存分析
[1]

电商互联网行业关注方向 :

  • 用户
  • 渠道
  • 产品
  • 营销
  • 营收

平台类 : 淘宝 , 京东等 , 纯粹提供平台服务赚取费用
B2C类 : 当当 , 唯品会等 , 直面用户销售产品

用户指标 :

  • 登录次数 , 感兴趣的商品 , 收藏 , 比较过的商品
  • 基于登录行为判断用户是否并打标签

渠道推广指标 :

  • 站外渠道 , 展示页 , 落地页 , 转化页
  • 浏览量 , 注册量 , 购买量 , 转化率 , 访问时间 , 跳出率
  • 访问用户量 , 广告投入 , 获客成本(cpc , cpa)

产品指标 :

  • 进销存 : 产品宽度 , 深度 , 销售数量(畅销 , 滞销) , 库存数 , 周转率
  • 产品留言 , 产品评分 , 产品浏览行为
  • 用户关注度 , 好评 , 差评 , 产品功能卖点

营销指标 :

  • 广告
  • 打标签 , 打情怀 , 价格 , 实用性
  • 猜你想看 , 关联推荐 , 即时优惠 , 大数据杀熟
  • 基于用户画像的推荐系统 , 个性化推荐

分析流程 :

数据准备
  • 导包连库读数据
  • head()看头了解字段
  • info()查看有无null值
数据清洗
  • 单独取null字段数据判断是否可以去除或者填充0或1
开始分析
  • 客户留存以自然月为单位区间 , 从原数据中抽出包含月份的字段筛选后新增一列月份标签为后续分析做铺垫
  • 查看每个月总订单数按月排序
  • 从简到繁 , 由部分到整体 , 先分析一个月在下一个月的客户留存
    1 . 分别记录存储当月与下月客户 , 用成员运算符判断留存客户数
    2 . 预想最终要得到的二维客户留存表的字段 , 用数组分别构建每条结果集(预设值默认0或null)和结果字段(月份)
  • 双重for循环遍历 , 外层控制每月新增客户(需排除前面所有月留存客户) , 内层控制该月后的每一月留存客户
  • 对统计结果汇总 , 拼接 , 展示 , 分析留存率值的变化对当前销售情况的影响
技术点

    取值df.loc[要取字段] , 取单字段返回series , 取多字短返回dataframe , 返回值可继续调用df内置方法 , 如 :

  • isnull() 空值
  • value_counts() 分组统计条数
  • astype() 改变数据类型
  • sort_index() 排序
  • groupby(分组字段) 分组
  • sum() 分组后聚合求和
  • reset_index() 重置索引分组后series转回dataframe
  • unique() 返回不重复值
  • pd.concat() 拼接dataframe

案例二 : Boss直聘''数据分析''岗位分析及可视化
[2]

数据获取

  • 用爬虫爬取招聘网站来自北上广深杭五个城市共4000+条数据类岗位招聘信息

分析预备

  • 导包连库读数据
  • 熟悉字段 , head() , 数据类型 , 数据格式

数据清洗

  • info() 查看有无null值 , 对null值做删除 or 填充0或1 or 无处理
  • [有重复数据去重]
  • 清洗position字段 , 清除异常值 , 模糊匹配关注关键词
  • 清洗salary_range字段 , 单独拆分为最低薪资 , 最高薪资 , 平均薪资三列
  • 清洗work_year字段 , 单独拆分为学历 , 工作年限两列 , 去除实习岗位
  • 清洗city字段 , 统一格式化为只含城市名
  • 清洗text字段 , 单独拆分为融资情况和公司规模两列 , 去除没有融资情况的数据
  • 统一岗位名称便于后续分析 , 重置索引 , 清洗完毕

分析思路

1. 数据类岗位整体需求

  • 分别对不同学历 , 不同工作经验 , 岗位分布 , 公司融资情况 , 公司类别 , 薪水选择合适的图形绘制展示 , 结合经验分析总结每张图能挖掘出来的信息

2. 城市 , 学历 , 工作经验对薪水的影响

  • 对城市和薪资分布区间分组统计绘制堆积柱状图 , 进行各城市之间薪资区间对比分析
  • 对不同学历对应的平均薪资绘制箱线图 , 分析对比各学历薪资上下限
  • 对不同工作年限对应的平均薪资绘制箱线图 , 分析对比工作年限与薪资上下限总体成正比关系

3. 不同岗位对应的学历要求 , 薪水分布情况

  • 绘制不同岗位需求情况的饼图 , 统计各岗位数量
  • 对薪资区间分布分组统计各岗位数量占比 , 绘制折线图观察需求趋势
  • 对学历分组 , 绘制每种学历对应的不同岗位需求的横向簇型柱状图 , 分析各岗位在不同学历中占比

4. 公司一般会用什么福利待遇来吸引求职者

  • 清洗数据提炼出所有福利关键字 , 对关键字分组统计绘制词云图

5. 不同岗位要求的关键技能点是什么

  • 将不同岗位对应的不同技能标签合并提取后计数 , 绘制各岗位技能标签词云图

技术点

  • df.drop_duplicates(inpalce = True) 去重数据
  • series.str.contains(关键词) 模糊查询 , 返回布尔series , 可用做df布尔取值
  • df.apply(函数 , 轴) 对行或列按指定函数运算出结果 , 可搭配匿名函数与真值表达式使用
  • df.apply(lambda x: 语句1或自定义函数 if 条件1 else (语句2 if 条件2 else 语句3) , axis = 轴向)
  • str.find(字符串) 找到返回索引 , 未找到返回 -1
  • ~bool 对布尔值取反
  • series.plot(kind = 绘图形状 , [stack = 是否堆叠True or False] , figsize = 图大小元组 , width = 线宽 , alpha = 透明度) 绘制折线 , 柱状 , 条形图
  • pd.cut(series , bins = 区间临界值列表 , labels = 区间标签列表) 对指定序列按区间划分
  • 分组后聚合后的堆叠数据.unstack() 取消堆叠还原回dataframe
  • dataframe.boxplot(column = 指定箱线图分析的列 , by = 分组字段进行多组合箱线图 , figsize = 图大小元组) 绘制箱线图
  • groupby类型.agg({聚合字段 : 聚合函数列表}) 对groupby分组后的数据聚合 , 可用于多列或多聚合函数统计或单图绘制多折线并列柱状图
  • wordcloud = WordCloud(width = 宽 , height = 高 , background_color = 背景颜色 , font_path = 字体路径 , max_word = 最大显示字数 , stopwords = 停用词 , relative_scaling = 词频与字大小关系系数默认0.5 , mask = 遮罩图 , random_state = 字图分布值) 生成词云样式
  • wordcloud.fit_words(series) 生成词云图
  • plt.imshow(wordcloud) 显示词云图
  • plt.axis = ('off') 不显示轴

附 :[3]

数据分析流程 :

明确目的 --> 获取数据 --> 清洗数据 --> 探索数据 --> 建模分析 --> 结果交流

数据清洗:

定义 : 将获取的原始"脏数据"(残缺数据 , 错误数据 , 重复数据 , 不符合规则的数据...)转换为"干净的数据"(可以直接代入模型计算符合后续分析的数据)

数据清洗常用方法 :

数据的读写 :

  • pd.read_csv('文件路径')
  • pd.read_excel('文件路径')

数据的探索与描述 :

  • df.info()
  • df.describe()

简单的数据处理 :

  • 去除数据间的空格,大小写字母转换等

重复数据的处理 :

  • duplicated()
  • drop_duplicates()

缺失值的处理 :

  • 删除缺失值
  • 填充0或1
  • 向前 / 后填充
  • 均值填充
  • 模型填补 , 如Random Forest

异常值的处理 :

  • 删除异常值
  • 作为缺失值处理
  • 均值修正 , 盖帽法修正
  • 不作处理 —— 业务分析挖掘价值

文本字符串的处理 :

  • 去除前后空格
  • 处理中间有空格()等数据 , 常用方法replace('要替换的字符' , '替换后的字符')
  • 正则表达式提取所需数据

时间序列的处理 :

  • 将系统时间格式化
  • 系统时间和时间戳相互转换
  • 提取年 , 月 , 日

  1. 案例一 : 互联网电商群组留存分析

  2. 案例二 : Boss直聘''数据分析''岗位分析及可视化

  3. 附 :

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342