数据分析:商业分析方法进阶(一)

一、知识点

分析方法

1、群组分析方法

如何分析用户留存(流失)?

2、RFM分析方法

如何对用户按价值分类?

3、漏斗分析方法

如何分析转化效果?

4、杜邦分析方法

如何对公司的财务分析?

5、如何清洗数据

二、项目练习

User Behavior Data from Taobao for Recommendation
User Behavior 是来自淘宝的用户行为数据集,用于隐式反馈的推荐问题

数据地址

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

每列详细情况
共有四种用户行为类型
数据集大小

数据清洗

1、查找是否有重复数据
select *
from
(
 select *,count(*) as countNumber
 from userbehavior
 group by  user_id , item_id, `timestamp`
) as t
where countNumber > 1;

查询结果显示数据集并无重复数据

2、查找是否空值

select * 
from userbehavior
where user_id is null or category_id is null 
or item_id is null or behavior_type is  null 
or `timestamp` is null;

查询结果显示数据集并无空值

3、查找是否有超出分析时间的数据

给表添加一列叫dates,用于记录行为发生的日期
-- 如'2017-11-25' 为2017年11月25日
alter table userbehavior add dates varchar(255);
给新列dates赋值
update userbehavior
set dates = FROM_UNIXTIME(timestamp,'%Y-%m-%d');
给表添加一列叫hours 字段,用于记录行为发生的小时时间
-- 如'21'为晚上9点
alter table userbehavior add hours varchar(255);
给新列hours赋值
-- 特别注意,此处的时间格式中“小时”部分的字符需要用大写的H,才能转为24小时制
update userbehavior
set hours = hour(FROM_UNIXTIME(timestamp,'%H:%i:%s'));
给表添加一列叫datetime,用于记录行为发生的日期时间
-- 如'2017-11-25 21:30:00' 为2017年11月25日晚上9点30分
alter table userbehavior add datetime varchar(255);
给新列datetime赋值
update userbehavior
set datetime = FROM_UNIXTIME(timestamp,'%Y-%m-%d %H:%i:%s');
给表添加一列叫weekday,用于记录行为发生在星期几
-- 如'1' 为星期一
alter table userbehavior add weekday varchar(255);
给新列weekday赋值
/*
- mysql中,可以通过函数 WEEKDAY() 将日期转为“星期几”,但是索引是从0开始,
即0表示星期一、1表示星期二...
- 为了使该字段更符合阅读习惯,可以将其进行加1操作,结果即为1对应星期一,
2对应星期二...
*/
update userbehavior
set weekday = WEEKDAY(datetime)+1;
日期转换结果如图所示:

4、删除超出时间范围的数据

delete 
from userbehavior
where dates < '2017-11-25' or dates > '2017-12-03';
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,302评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,563评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,433评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,628评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,467评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,354评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,777评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,419评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,725评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,768评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,543评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,387评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,794评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,032评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,305评论 1 252
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,741评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,946评论 2 336

推荐阅读更多精彩内容

  • Android自定义控件Path贝塞尔曲线 这篇文主要说Path绘制曲线,就是曲线中非常有名的贝赛尔曲线。 贝赛尔...
    幽默人生_0837阅读 632评论 1 1
  • 每天分享一本书。 今天我给大家分享的书:《卡片笔记写作法:如何实现从阅读到写作》。 德国著名学者卢曼基于学习心理学...
    树毛竹阅读 652评论 0 3
  • 奥地利心理学家阿尔弗雷德.阿德勒是我喜欢的作家,无疑。 如果你不知道他,那我就从弗洛伊德讲起。 你们都知道弗洛伊德...
    翩翩心理阅读 203评论 2 2
  • 表情是什么,我认为表情就是表现出来的情绪。表情可以传达很多信息。高兴了当然就笑了,难过就哭了。两者是相互影响密不可...
    Persistenc_6aea阅读 123,340评论 2 7
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,020评论 0 4