数据分析

沉默的数据

大数据时代,似乎做什么事情都要"听听数据的",因为数据不会说假话,所以无论产品发展,策略调整,都跟着数据走准没错。毕竟数据是用户真实反馈嘛。
数据确实不会说假话,但是同样,数据也不会说话。经过数据仓库的整理,数据不再是杂乱无章的,但是整整齐齐的数据也只是数据,不是知识。面对这些数据,这些仓库表,这时候就需要有人来解读其中的内容,帮助数据把信息表达出来。这种人,是数据分析师,这种行为,就叫数据分析。

分析师:数据的代言人。
简单说一下,理论上来说,分析师是要通过数据中表现的用户的反馈,得知产品好坏是否受欢迎,同时对产品提出优化调整策略(包括产品本身和推荐策略)。
设想是好的,实际上并没有这样,很多公司都有这个职位,但是部分数据分析师很尴尬,只是成了提数,做报表的"大表哥""大表姐"。对优化调整完全没有话语权。因为传统的软件开发中,产品/研发/测试这三种角色就像游戏中的战法牧组合一样,稳定牢固,新加入的分析师呢?根据数据反馈对产品提出优化方法,算产品么?自己写sql,Java,python计算,算研发么?自己验证数据保证数据准确性,算测试么?都不算,当然,更算不上是领导。在团队里找好定位,发挥分析师作用,和基础技能一样重要。

数据分析-定义

数据分析本质上是统计,对数据进行详细的研究,提取出有意义的信息,概括总结形成结论的过程。是对历史的总结。

数据分析-方法

excel/python/r/mr/spark等工具。

本文对数据分析的方法不做详细的解说,可以参考《深入浅出数据分析》等书详细了解。

数据分析-内容

分析有三宝:主题结论数据好
做分析之前,一定要知道此次分析的目的,不能无头苍蝇一般乱撞。有主题有结论有数据论证,才是一次好的分析。
产品追求的核心是用户,用户数这个简单的指标,可以清楚的反应产品的使用情况。但是不能仅仅关注用户量这些指标(新增/活跃/留存/流失等),还要关注用户的行为,随着产品形态的不同,具体关注的又不同。比如网约车,关注的是人的打车频率,车型的选择,行程范围;feed/短视频,关注的是用户的使用时长;电商,关注的是用户的GMV/行为路径。不同产品有针对的设定指标进行分析,才能更好的体现用户对产品的使用情况,才能对产品提出有意义的优化策略。

多数的时候,分析出来的结果会与基本认知相符合,不会每次分析都给人"眼前一亮"的感觉,这是正常的。

数据分析-可视化

分析出的结果怎么展示出来,也是非常重要的一步。可视化的阶段:

  • 黑底白字的控制台展示
    这个阶段就根本称不上可视化,不要给别人看了,还不如把数据整理到excel里对外提供。曾记得当初第一次给公司高层展示,黑底白字控制台,敲两个命令,出来几行数,领导看的一脸懵,这种情况,明明10分的工作,估计只能得5分。
  • 页面表格
    把命令行展示的数据,在页面上用表格表现出来,只能说算一种"美化",最多增加下载功能。还是对数据的直接展示。
  • 页面图表
    从折线图/饼图/柱状图开始,才是对数据的直观展示。对不同的产品形态用不同的展示方法。地图热点/热力图来表示网约车的使用情况。漏斗图来表示转化情况,等等。
    通过多种多样的图表,让人一眼能看到数据的情况。再用表格来进行详细数据描述,组合拳出击,达到最好的效果。

数据分析-报告

通过分析得到的结果,即便是图表展示,往往也会让人不太清楚,需要分析师进行解读。所以分析师的又一个核心技能:写数据报告。
面对的观众不同,数据报告又分为微观和宏观两种。

  • 微观
    对内,为产品优化而做的报告。
    在新功能(包括产品界面布局,推荐策略等)准备上线之前,ab test的时候,根据用户使用的反馈数据,产出分析报告,给出此次改动是否达到预期,可否上线的结论。策略有很多种类,并且更新很快,所以这时候应该能做到自动给出简单的数据报告的能力。
  • 宏观
    对外,让用户知道产品功能以外的内容。
    这个不是必须的,但是是一种很好的宣传:产品对现实世界的影响。比如滴滴打车对拥堵的改善/碳排放的减少有什么贡献(2015年中国智能出行大数据报告),短视频对区域旅游/网红电商带来的影响(目前还没看到类似的报告),行业报告(2016微博短视频行业报告)。等等。

报告书写,就像写作文一样,要有条理,如果包含多个主题,需要用线索穿起来,让人流畅阅读。

  • 主题
    有针对才能进行更好的分析,得到结论。如"用户访问情况概览","登陆按钮更换位置对用户登陆的影响","留存与生命周期","各渠道用户质量分析报告"等。
  • 统计周期
    标明此次分析统计周期。使用数据范围。
  • 结论
    通过分析得到了哪些结论,按照一定顺序写下来。
  • 数据验证
    对给出的结论,一一加以验证。
  • 建议
    改进建议/下次分析计划。

数据分析-问题

不要被数据蒙蔽住眼睛,不要迷信算法。
在数据分析中,会遇到各种各样的问题,导致分析结果并不能反应真实的使用情况。下面分别介绍一下分析中可能遇到的误区。

  • 幸存者偏差(Survivorship bias)
    是一种常见的逻辑谬误(“谬误”而不是“偏差”)。指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
    在二战的时候,军队检查战斗返航的飞机时发现,机翼中弹情况很多,机身中弹情况很少,就认为飞机机翼更容易中弹,开始加固机翼。实际是这样么?不是,因为机身中弹的很多飞机都没有安全返回己方机场。
    现实生活中也有。在用户主动参与的活动中非常常见。比如appsotre里面对产品的评价,有一部分人(比如我)就从来没在里面评价过。我公司楼下对面有个徽菜饭店,极其差,但是在大众点评上面评分还是三分多,有一些是刷单的,还有一些吃一次不好吃就不再来,也不会在点评上打分。这时候如果单纯的从评分来看饭店好坏,很可能就是错的。
    想要避免幸存者偏差,就一定要清楚,自己拿到的数据是否能代表全部用户,如果不能,它代表的是哪些用户。弄清楚这个的话,就不会掉到这个坑了。
  • 辛普森悖论
    当人们尝试探究两种变量(比如性别与转化率)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
    比如公司有两款产品A和B,想知道是更受男生欢迎还是更受女生用户欢迎。从下面的表格中可以看到,单独看AB两款产品,女生的转化率都小于男生,可以认为两个产品都更受男生欢迎。
    但是综合两个产品看,女生的转化率又高于男生,又可以说女生更喜欢公司产品。居然得到两个相违背的结论。
    这是为什么呢?从数据可以看到,两款产品的总转化率相差比较大,男女分布又非常不平均,这样简单的将两组数据相加汇总,得到的结果不能反应真实的情况。
    如何避免辛普森悖论呢,在做整体分析的时候,要考虑不同产品的权重,做好降权,以一定的系数去消除以分组资料基数差异所造成的影响,才能得到一个正确的结论。
产品 女生新用户 女生转化数 女生转化率 男生新用户 男生转化数 男生转化率 总新用户 总转化数 总转化率
A 1000 300 30.00% 50 48 96.00% 1050 348 33.14%
B 10 1 10.00% 1000 110 11.00% 1010 111 10.99%
总计 1010 301 29.80% 1050 158 15.05% 2060 459 22.28%

小结

数据分析的目的是把数据中的知识提炼并表达出来,温故而知新。
作为分析师,要明确自己要分析什么,关注哪些指标,明白指标的定义以及计算规则,同时关注产品改动,给出正确及时的分析结论。
给出清晰易理解的数据报告,是数据分析的意义以及分析师的责任。


欢迎关注

攻城锤的数据仓库

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容