送给洁林的每日好文

给洁林的每日好文

开心工作,幸福生活!

第19期    数据的基本概念、术语、指标,基本技术和分析方法 | 大数据时代

任何人不得转发他人,特此声明,我与洁林的内部文章,请勿共享!


产品、运营需要掌握的数据知识:数据的基本概念、术语、指标,基本技术和分析方法

“数据”这个词,是产品经理永远绕不过的话题,从我工作和面试的经验来看,其实一个产品人对数据知识的掌握是十分重要的,所以我特意整理了此文,不仅仅是我的产品工作中需要掌握的,对于洁林的工作基本上是涵盖了运营、营销、产品、数据分析等多项技能,大公司不缺需求也不缺你的活跃思维,这些你的上级都会给你安排好,而作为大公司工作五年以下的员工来说,公司最需要的是你的执行力和解决问题能力,所以希望这篇文章能给你工作上的帮助。

1、基本概念

什么是“移动App的数据分析”?为什么要进行“移动App的数据分析”?

简单来说,通过在App中进行埋点采集,或读取App存储在数据库中的业务数据,以一定目的,将数据进行“筛选、清洗、加工、解析”,产出对产品设计、运营计划有帮助的结论的过程,就是“数据分析”的过程。持续的数据分析可监控产品的运营状态、提升推广效果、发现产品问题、优化产品体验。

2、基本术语

这里举几个我常遇到的术语,便于同开发和运营进行沟通。

埋点

一般意义上的埋点,是利用如友盟、Talkingdata等第三方公司的SDK,通过在App中嵌入一段SDK代码,设定触发条件,当满足条件时,SDK会记录日志,并将日志发送到第三方服务器进行解析,并可视化地呈现给我们。这一过程就叫埋点。我现在使用比较熟练的是百度统计和友盟,这里会给你提供多项帮助,PV、UV,事件跟踪,地域分布,在线时长等等许多有用的帮助。

埋点方式也分“简单埋点”和“自定义埋点”,所谓“简单埋点”就是直接拿到第三方key,写到App代码的配置文件中即可。而“自定义埋点”则对应一种叫“自定义事件”的功能,一般第三方统计工具都支持,我们可通过设置“自定义事件”查看App特定的操作行为数据,如点击按钮次数、打开指定页面次数等。这个的埋点就是我之前所说的为什么一个页面上可以设置多达几十个的事件统计,虽然数据不能说明一切,但是数据是衡量产品、运营最重要的一项指标。

通常创建“自定义事件”都需要产品经理告知开发App的哪些条件下需要触发“自定义事件”,以及触发时要如何通过不同参数区分不同的点击行为。

如同样是点击按钮事件,可通过设置参数“Action”,来区分Action=Yes和Action=No这两个按钮分别点击的次数。整个埋点流程如下图所示:


维度:

维度就是指我们平时看事物的角度,也可理解成分析一个数据能从哪些方面去分析,这些“角度”都是有值且可被枚举的。比如我们注册用户数有10万,那可分析的维度有:用户所在省份、用户性别、用户角色、用户来源等。不同维度来观察数据,可以得出不同结论,能否拓展观察维度,也是评估数据分析能力的一个关键。用户的肖像分析(之前提过的术语,属于精准化用户行为的一种方法)也是通过数据来分析得出结论的。

度量:

度量和维度相辅相成,是指可量化的数值,用于考察不同维度观察的效果,也可理解成“数据指标”。观察度量值可总体查看,如App总用户数,也可配合“维度”分层查看,如不同省份的注册用户数、活跃用户数,不同来源的App启动次数、平均日使用时长等。

渠道:

指App的不同安装来源,如通过第三方应用市场安装,通过广告点击安装,通过地推二维码扫码安装,通过官网下载安装等。互联网公司的商务工作一般就是拓展渠道,观察不同渠道带来的数据表现,不断优化渠道质量。在这里我不得不提的一点是运营知识,阴阳师之所以下载量高,他们的渠道运营做的可以算非常之好,运营人员通过分析数据发现微信上的朋友圈分享一个链接被打开浏览的概率为7%,而朋友圈分享一张图片被打开查看的概率为52%,所以他们利用游戏用户的虚荣心理,当你在游戏中得到成就时,通过分享一张阴阳师相关的图片在朋友圈(图片上带二维码),可以得到朋友圈人的追捧,以至于将其带入阴阳师,数据分析显示,通过该渠道,阴阳师获取到了大量用户,这里给各位携程做运营的亲们一个值得学习的地方。

3、基本指标

注:以下所说的指标,均以移动App常见的核心指标为主,不涉及业务相关指标。目的是希望产品经理在谈起某个数据时,能统一认识。

新增用户:安装App后,首次启动App的设备数,需要按“设备号”去重。新增用户主要为了衡量推广效果,以及当前产品在整个生命周期所处阶段。

活跃用户:时间段内,启动过App的设备数,需要按“设备号”去重。活跃用户主要为了衡量运营效果,以及产品使用情况。

启动次数:时间段内,启动App的次数,无需去重。启动次数主要为了衡量推送效果,以及App的内容是否足够吸引人。

留存率:时间段内的新增用户,经过一段时间仍启动App的用户,占原新增用户的比例。“时间段”的划分方式有:按日、按周、按月,对应指标还可细分为“日留存率、周留存率、月留存率”。而“经过一段时间”的划分方式有:次日、7日、14日;次周、+2周;次月、+2月等。一般一款App的次日留存率为30-40%,次月留存率为20%,已经算是不错的成绩了。

使用时长:时间段内,从启动到结束App使用的总时长。所谓“结束App”,通常指杀掉进程,或者将App退到后台超过30秒。一般会按“人均使用时长、次均使用时长、单次使用时长”分析,衡量产品粘性和活跃情况。

使用频率:用户上次启动App的时间,与再次启动的时间差。使用频数分布,可观察到App对用户的粘性,以及运营内容的深度。

4、基本技术

数据采集技术——抓包

所谓“抓包”,一般指观察App上传到服务器上的数据都有哪些。

通过“抓包”观察,一方面可判断自家App是否正确上传了想要统计的数据,另一方面还可抓取到手机上安装的其他App的上传数据,用来分析竞品内容更新情况。

一般在Mac系统上,我知道用Charles工具,Windows系统可以用Wireshark这款工具。当然抓到的数据如果想进行详尽分析,需要一点基本的http协议知识和json格式知识。


数据提取技术——sql语言。sql语言一般用于从数据库中进行数据的增删改查,需要企业运维人员或DBA人员开启权限才可访问,大公司的产品经理基本没机会用到,但如果你是小公司的高级产品经理,且和技术商议仅开启只读权限,还是可以尝试使用的,不知道你们能否有这个权限。

以我个人经验,掌握sql只是基本要求,更关键的在于了解数据库表结构关联关系,以及你提取数据的思路,sql只是工具而已。sql语言本身也和数据库软件相关,推荐学习mysql的sql语法,简单易试。至于语句,只要掌握group by的维度,where的限制条件,还有join语句的表连接逻辑,基本就能应对80%的数据查询需求,剩下的就是熟能生巧了。(推荐一本my SQL必知必会,我已经购买了,12月份拿给你看!)

数据处理技术——Excel、Python、JS。提取出来的数据,要深入分析,肯定得进行二次加工。按使用的难度高低,需要掌握工具如下:

Excel:大名鼎鼎的office工具,有着极其强大的数据处理能力。常用数据分析功能有透视表和命令行。推荐一个我喜欢的处理命令:

VLOOKUP:这是一个查找函数,给定一个查找目标,它就能从指定的查找区域中返回想要查找到的值。它的基本语法为:

VLOOKUP(查找目标,查找范围,返回值的列数,false)

我们可在一堆数据中,根据指定条件,进行二次筛选,非常方便。当然这个函数的作用还不止如此,有兴趣的同学可以深入研究一下。

此外,包括COUNTIF、IF等判断语句,也是筛选数据非常好用的函数。

Python、JS:Python、JS其实是一种通用脚本语言,不止适用于数据分析,但由于其安装、使用方便,函数库丰富,特别适合有开发基础的同学尝试。举个例子,mysql提取出来的数据,DBA通常会以Excel格式提供,简单的二次处理可用Excel完成,但涉及根据业务不同,要根据Excel做数据的条件判断计算,以及循环处理,就要借助第三方开发语言了(当然Excel自带的VBA也很强大)。此外,如果希望以更可视化的方式查看数据,还可通过JS技术,调取第三方开发库,如百度地图的API,进行更丰富的呈现。比如我在网上看到的e代驾做的车辆运行轨迹图:


5、基本分析方法

介绍几个常用的数据分析思路:

对比:字面上理解,就是非孤立地看数据,而是多个数据提取进行比较。根据对比方法不同,分为“横向对比”和“纵向对比”。

横向对比:指空间维度的对比。相当于一个指标,在不同条件下的对比,但每个条件都属于一个层级。举个例子,App功能的A/B测试数据对比,各个渠道的新增用户对比,都属于横向对比。

纵向对比:指时间维度的对比。一般的对比方法有:同比、环比。同比一般指是指本期数据与上年同期数据对比,环比则是本期统计数据与上期比较。观察时间轴上的数据折线图来判断产品运营状态也是一种纵向对比。

拆分:分析这个词,从字面意义上理解,就是“拆分”和“解析”,当某个维度对比后发现问题需要找原因时,就需要进一步“拆分”了。举个例子,如果发现某日的销售额只有昨日的50%,就需要对销售额指标拆分为:成交用户数x客单价,而成交用户数=访客数x转化率。那么我们接下来就可分别针对:访客数、转化率、客单价,观察今日和昨日相比的数据变化,找出原因。

降维:当维度太多时,我们不可能全部分析,这时就要筛选出有代表性的关键维度,去除掉那些无关数据,这就是“降维”。比如“成交用户数=访客数x转化率”,当同时存在这三个指标时,其实我们只要三选二就能得出结论了。

增维:增维和降维是相对的,如果当前观察的维度无法解释当前问题,就需要对数据进行运算,多增加一个指标。在可视化分析领域,也可将不同类型的图表嵌套使用,能达到增加信息展现维度,扩展分析广度的目的,如下图所示:(将环形图和折线图进行增维嵌套)。


分组:也可叫聚类,合适的分组能更好地理解业务和场景。例如用户画像过程,就是一个按不同维度对数据分组的过程。通过用户画像,可以很清晰地知道产品的用户地区、用户兴趣、用户年龄、用户性别等属性占比,产品经理可通过画像进一步了解用户需求。

漏斗分析:主要用于分析产品使用的关键路径,通过设定一系列操作步骤,统计每一步中的操作用户数,并将用户数以柱状图纵向排列,就可形成用户流失漏斗,我们可分析漏斗每个环节的流失率,并观察改进环节交互体验后,流失用户的变化情况,以此来验证改动效果。


AARRR模型:该模型一般用于游戏数据分析,是Acquisition、Activation、Retention、Revenue、Refer,这五个单词的缩写,分别对应一款移动应用生命周期中的5个重要环节。AARRR本身是一个循环,使用者需观察每个环节的数据情况,以此来分析产品是否在执行一个正循环过程。这其中的任一环节除了问题,都会导致产品数据的异常。


6、总结

以上内容,从“基本概念、基本术语、基本指标、基本技术、基本分析方法”这几个方面,讲解了产品经理应了解的基本数据知识,其实每个方面都可再深入讲解,但是现在先消化一下,然后我们慢慢的去学习,掌握。





附录:

一.两大最常用模型

漏斗模型

今天首先要介绍的是漏斗模型:它可以广泛应用于流量监控、产品目标转化等日常数据运营工作中。之所以称为漏斗,就是因为用户(或者流量)集中从某个功能点进入(这是可以根据业务需求来自行设定的),可能会通过产品本身设定的流程完成操作。

对于我们要做的就是对按照流程操作的用户进行各个转化层级上的监控,寻找每个层级的可优化点;对没有按照流程操作的用户绘制他们的转化路径,找到可提升用户体验,缩短路径的空间。运用漏斗模型比较典型的案例就是电商网站的转化,用户在选购商品的时候必然会按照预先设计好的购买流程进行下单,最终完成支付。这些数据虽然是我瞎编的(你来打我呀)但是如果没有整个业务流程的梳理,就不会有这种漏斗模型的产出,更别说去查找每个步骤出现用户流失的问题了。


当然有些时候也要做一些竞品分析,对于同行业同类数据的转化情况做到心中有数。尽可能降低用户流失是我们的目标,但是如果可以做到不低于行业平均水准同时资源有限的话,降低这个转化漏斗的用户流失就需要被放置较低的优先级里。

还有一些比较经典的漏斗转化模型就是用于用户注册流程上:我们需要知道多少用户点击了注册按钮(漏斗的开端),多少用户完成了信息填写(多少用户放弃填写),多少用户点击发送验证码按钮(验证码到达率),成功完成注册的人数。如果一旦在运营过程中发现某一天的注册用户数出现波动,那么除了去查一下市场渠道及广告投放,产品本身的注册功能也是可能出现这个问题的重要因素。

对于产品的非功能页面,比如某个活动页,公司简介页等等,用户可能不会按照我们既定的流程到达,那么就要根据实际的目标来确认是否有讲这类非功能页面的转化流程做优化的必要性。

归因模型

归因模型,更准确的描述其实是一种既定的规则,我们需要根据产品的实际需求,将达成目标(形成转化)之前的功劳根据设定的权重分配给每一个转化节点。产品形成一次转化,用户可能要经历很多个转化节点(转化并不一定只完成销售。一次注册也可以看作一次转化,一次访问也可以看作一次转化,要根据业务实际需求制定)。

归因模型在使用过程中通常分为几类:最终互动模型、首次互动模型、线性归因模型、时间衰减归因模型、自定义等,这里逐一进行描述:

产品情景描述:用户在Baidu上搜索一个关键词,点进了一个叫a.com的网站之后放弃继续搜索。过了几天他又在自己的Facebook上看到了这个关键词的广告,随后他点击了广告最终完成购买。


最终互动模型:最后一个节点将被分配100%的功劳,那么Facebook(社交媒体)上的广告获得100%的功劳;

首次互动模型:用户首先是在Baidu进行关键词搜索的,那么Baidu(搜索引擎)将被分配100%的功劳;

线性归因模型:用户从开始搜索到转化,共经历了三个渠道(节点),那么每个节点将被平均授予33.3%的功劳;

时间衰退归因模型:用户在Baidu搜索和访问了a.com是几天之前的事情,那么这两个渠道因为时间经历比较长的原因将被分配较低的功劳(如各20%),Facebook将被分配相对较高的功劳(60%);

当然,实际的业务流程和渠道转化流程不会像描述的这样简单,我们也可以根据需求自行定义。归因模型的意义在于寻找到真正对于现阶段产品发展有利的渠道,并将优势扩大化。当然,它是具有时效性的,也就是说产品的不同阶段归因模型所得到的结果很可能是不一样的。

之后还会针对产品数据分析方法中的“Cohort分析(同期群分析)“、”数据细分“、数据整理做一些描述。

二、三大最基础工作

1.用户肖像分析:

用户画像分析是获取产品目标用户的主要方法之一,也是日常数据分析工作的一部分。通过性别、年龄、收入、地域等信息为用户打标签,如果能通过账户体系将用户其他行为(如访问行为、付费行为)打通,那么将形成完善的用户画像数据库,对精准化营销起到决定性作用(用户画像做的最好的应该就是京东、淘宝等电商网站了,甚至于它可以预测到你未来的某一段时间里可能需要某样商品,从而通过电邮、短信、微信等方式推送针对性商品促销信息)。

获取到用户肖像有很多种方法,这里着重写一些常用的,大家可以根据自家产品定位及内部资源自行选择最适合的:

方法1

可以在产品中嵌入用户基本资料的相关功能,通过任务引导及适当的奖励制度鼓励用户完善个人信息。我还见过一些产品的部分高级功能是通过完善个人信息后开启的,这种方法也不错。需要注意的是,一定不要让用户花费太多的时间去完善资料,同时也不要涉及过多用户隐私,避免用户反感进而造成流失;

方法2

利用一些第三方监控平台:如友盟、Google Analytics(GA)、或者百度指数等等;这些平台对于基础的用户画像都有统计和分析(当然受制于cookies影响,当用户清空或者拒绝读取cookies时会对数据产生些许偏差,需要数据采集后进行清洗)利用这些平台的好处是可以和广告投放数据相打通,也可以获取到行业竞品的数据发展趋势。

方法3

定期倾听用户的声音,比如调查问卷,回访等方式,用抽样的方法预测整体用户画像水平,同时因为问题设置的灵活性,也可以获取到很多关于同行业竞品的信息。

2.流量监控:

流量监控是需要从产品诞生之日起就要着手去做的一件事,因为它不仅涉及到产品迭代的方向发展,同时也可以用数据告诉我们哪些功能好用,哪些功能不好用需要优化,甚至哪些功能是没用的需要舍弃。对于活动运营而言,流量监控也是活动效果总结最重要的参考依据之一。

无论是内部技术团队自行埋点还是利用第三方工具进行数据监控(这里我想多说一句,选择自己研发还是利用第三方工具进行监控统计,一定要根据产品实际需求以及团队资源来考量。大公司资源较多,经常会选择自行研发,因为涉及到数据安全及精准性;小产品可以考虑选择市面较好的第三方工具进行数据埋点),一定要趁早做,而且要尽可能做的精细。

对于网站而言,完整的网站地图就是必不可少的功能之一,每个页面都需要放置正确的监控代码,用以监控到用户访问(PV / UV)、跳出(bounce rate)、页面停留时间、页面访问深度(即访问多少个页面)、访问渠道来源(从哪个网站来的,以什么方式来的)、留存率(次日流量、3日留存、7日留存、14日留存、28日留存)等。关键流程一定要部署正确,如注册流程(涉及到新用户)、购买流程(涉及到转化)等等,这时候转化漏斗就是帮助我们做页面分析的重要工具。通过漏斗看到各个关键页面的流量进入与转化,用户离开比例,如果一个漏斗的某一个流程数据发生异常,就需要着重看一下是否是产品功能上出现问题。如果使用GA等监控工具,可以做到广告投放与用户访问行为数据互通,利用归因模型分析出射手渠道和助攻渠道,不仅可以做到广告优化提升转化率,还可以发现新的合作渠道甚至于新的用户集中群体。

对于App而言,DAU、MAU、Interactions、访问深度等等就是我们需要着重观察的数据,相比较网站监控来说,app的数据监控更适合从账户体系着手,每个用户就是独立的个体,用户独立的访问行为;同时与国能与画像数据打通,就可以拿到不同类型的用户对于产品访问行为、产品功能需求的重要依据。

3.收入(转化)监控:

收入监控是衡量产品商业化水平的重要依据,产品的目标形态是实现商业化,所以不同类型的产品都要要求有持续的可变现能力,否则会逐渐被市场竞争所淘汰。

日常监控的数据有收入流水、盈利、盈利率(同比、环比)、补贴、补贴率、用户首次付费、再次付费数、留存率等等。这类数据一般来讲都是直接写入后台数据库的,也就是说产品内部员工才可以查看,同时可能会被分配不同的查看权限。一些公司也需要产品数据运营人员有一定的SQL能力,可以读懂数据库代码,能写或者能描述清楚需求让技术帮你写。




笑笑对你说:


双十一没给你送啥礼物,给你买了那双UGG的靴子,希望你收到后能够喜欢


烧腊饭和双拼很好吃,我只能晚上吃,这真的有点发胖




爱你不是两三天,而是这一秒和下一秒


笑笑

2016.11.11

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335

推荐阅读更多精彩内容