[实用方法][数学原理]
封面用研整编文章
在用户分析领域,对用户行为洞察的需求正盛。本文介绍常用的Session分析方法,及10种常用的统计分析方法。
数据分析应该以业务场景为起始思考点,以业务决策作为终点。基本思路为5步,首先要挖掘业务含义、制定分析计划、从分析计划中拆分出需要的数据、再根据数据分析的手段提炼业务洞察,最终产出商业决策。
其中,Session是一种专业的数据分析。对于有数据驱动意识的互联网人来说,这并不陌生。Session 即会话,是指在指定的时间段内在产品上发生的一系列互动。例如,一次会话可以包含多个页面的浏览、事件、互动和交易。
Session分析可以帮助我们对用户的这一系列互动进行深入洞察,从不同的角度去探索用户的行为动机、偏好,甚至是无意识行为。
Session:解决用户分析中的“线”型难题——有何意义?
人们往往最熟悉事件分析模型,且用户行为事件往往以“点”的方式呈现,即某人在什么时间什么地点干了一件什么样的事,也就是我们熟知的 4W1H 模型:Who、When、Where、How、What。
王小明昨天下午在电商网站通过个性化推荐买了一双 NIKE 球鞋,张小花今天十点在融 360 上注册后领取了新人基金,某白领晚上六点在五道口区域扫码一辆摩拜单车并报修了它……
基于这样用户角度的行为记录,产品方可以知道他们的用户都具体干了什么事情。并对自己的产品做出精细化运营,但是,还有一些需求,是不能通过“点”来描述的,比如:
——用户平均会来几次?
——每次平均逛了几个页面?
——每次来平均待多久?
——某个具体页面用户平均停留多长时间?
这些需要把用户的单点行为串联起来形成一个整体,并在此基础上进行计算后才能得到的数据分析需求,更像是一条“线”。而 Session 分析的最大意义,就是解决用户分析中的“线”型难题,从不同角度指导精细化运营与商业决策。
如何用Session分析支持工作?
如果根据定义,Session 的关键点显然是:多长时间内用户做了什么事。
1:Session切割时间
假如王小明打开某企业官网了解信息,点击了 DEMO 按钮,并进行了注册试用行为,然后就被领导叫去开会,四十分钟后又跑回来继续浏览页面,这是几个 Session?。
这要看数据分析工具的 Session 切割规则,通常来讲,Web 产品建议切割时间为 30 分钟,APP 产品建议切割时间为 1 分钟,比较符合用户的使用习惯。当然规则是活的人也是活的,可以根据产品的业务形态变更。所以王小明两次浏览页面的时间超过了 Web 端的 30 分钟,被记录为两个 Session。
2:Session事件
Session 记录什么事件,取决于需要关注的用户行为。如果 Session 事件只包含了注册行为(核心事件),那王小明的行为将会被记录为一个 Session。如果包含浏览页面,则会被记录为两个 Session。
那么Session分析究竟可以分析什么?
1:平均访问时长
平均访问时长是指在一定统计时间内,浏览网站的一个页面或整个产品时用户所逗留的总时间与该页面或整个产品的访问次数的比。
平均访问时长越久,证明 Web/APP 越有吸引力,如果用户停留的平均时间非常低,那么可能内容不够有趣,或界面优化较差,真正有价值的内容无法吸引用户,影响用户体验。
2:平均交互深度
平均交互深度和平均访问深度定义虽有差别,意义却很相似,都是衡量 Web/APP 质量的重要指标,可以帮助企业了解页面内容的价值,功能是否满足用户需求,指标的具体意义需要依照业务进行判断。
3:跳出率
跳出率和退出率是不同的概念。
跳出率=只浏览了一个页面就退出的次数/访问总次数,表现了用户什么都不做就从当前页面离开的百分比。
退出率=用户从某一页面退出网站的次数/该页面的浏览总次数,表现了用户从当前页面离开的百分比。
跳出率通常用于评估网站的用户体验,可以用于指导网站以及页面的改善,衡量的是该页面作为用户的落地页,吸引用户的程度。通常意义上,跳出率过高,代表网站对访问者的吸引率很低,网站/APP 功能得不到用户垂怜,公司岂不是做了无用功?但是这也不是绝对的,有些访问被算作跳出,但并不一定是负面的,例如用户按照你的引导点击外链跳转到你的新网站,为新网站拉新。具体场景需要具体分析。
退出率则应用更为广泛和灵活,一般用来衡量一个页面的内容是否满足用户需求,或者引导是否合理,因页面不同,意义也不同。每一个页面都可能成为退出页面,重要的在于,这个页面是不是关键流程页面,用户应不应该退出。
如何测量跳出率呢?
Session 分析是对一段时间内用户的操作(行为事件)进行分析,如果一个 Session 中只有一个事件(如浏览页面),即视为用户跳出。整体跳出率就是用跳出的Session 数/Session 总数,具体事件或页面的跳出率可以通过维度进行筛选。
当用户从某个页面结束了 Session,即视为用户退出。页面退出率就是用页面的退出总次数除以该页面浏览总次数。
4:Session转化分析
用户分析中,有一个非常典型的分析需求是需要知道不同渠道带来的注册、购买等转化情况,该需求本质上,就是需要界定 Session,然后按渠道属性查看注册、购买等事件的转化数量。
5:用户路径
在业务流程中,了解用户的行为路径,有助于我们找到用户大量流失的环节,衡量网站营销推广效果。产品经理可以据此将用户行为流与初步设想进行对比,完善功能,优化用户体验。
使用用户路径分析,设定起始事件与 Session 切割时间,可以观察一个 Session 内用户的行为流。
路径分析怎么做呢?
用户路径的分析结果通常以桑基图形式展现,以目标事件为起点/终点,详细查看后续/前置路径,可以详细查看某个节点事件的流向,总的来说,科学的用户路径分析能够带来以下价值:
第一,可视化用户流,全面了解用户整体行为路径:
通过用户路径分析,可以将一个事件的上下游进行可视化展示。用户即可查看当前节点事件的相关信息,包括事件名、分组属性值、后续事件统计、流失、后续事件列表等。运营人员可通过用户整体行为路径找到不同行为间的关系,挖掘规律并找到瓶颈。
第二,定位影响转化的主次因素,产品设计的优化与改进有的放矢:
路径分析对产品设计的优化与改进有着很大的帮助,了解用户从登录到购买整体行为的主路径和次路径,根据用户路径中各个环节的转化率,发现用户的行为规律和偏好,也可以用于监测和定位用户路径走向中存在的问题,判断影响转化的主要因素和次要因素,也可以发现某些冷僻的功能点。
常用的统计分析方法论
在数据分析的背后,我们需要用科学的数学方法来支撑,我们与大家一起复习一下10种最常见的分析理论。最常用到的是描述性统计,同时,相关分析、聚类分析、时间序列分析等方法出镜率也相当高。
1:描述性统计
描述性统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。
描述性统计分为数据的频数分析、集中趋势分析、离散程度分析、数据分布及一些基本的统计图形。
在日常的业务性分析中,描述性统计分析可以解决大部分问题。
(1)数据的频数分析:
在数据的预处理部分,我们利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。
(2)数据的集中趋势分析:
数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下。
平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
中位数:是另外一种反映数据的中心位置的指标,其具体方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。
众数:是指在数据中出现频率最高的数据值。
如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
(3)数据的离散程度分析:
数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型选用不同的计算方法。
(4)数据的分布:
在统计分析中,通常要假设样本的分布属于正态分布,数据的正态性离群值检验,已知标准差时,用Nair检验,未知标准差时,有Grubbs检验,Dixon检验,偏度-峰度法等。
其中常用的“偏度-峰度法”需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
(5)绘制统计图:
用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。
2:假设检验
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。
具体做法是:
根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知。
由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。
常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。
3:方差分析
方差分析又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。
由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
4:相关分析
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
常见的有线性相关分析、偏相关分析和距离分析。
相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。
5:回归分析
回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。
回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好地拟合实测数据。如果能够很好地拟合,则可以根据自变量作进一步预测。
6:聚类分析
聚类分析主要解决的问题是“物以类聚、人以群分”。比如以收入分群,高富帅VS矮丑穷;比如按职场分群,职场精英VS职场小白等等。聚类分析目前在用户画像研究中被广泛应用。
聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。
大致的思路是这样的:
(1)首先确定选择哪些指标对用户进行聚类;
(2)然后在选择的指标上计算用户彼此间的距离。
距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。)。
(3)最后,聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。
常用的算法k-means、分层、FCM等。
7:判别分析
判别分析是从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。
常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。
注意事项:
(1)判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;
(2) 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);
(3)各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。
相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。
应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
8:主成分与因子分析
主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,将变量表示成为各因子的线性组合,从而把一些具有错综复杂关系的变量归结为少数几个综合因子。
因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系。
9:时间序列分析
经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列间的互相依赖关系。
后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。
例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
10:决策树
决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
总结
Session 分析并不“包治百病”,但却是用户行为分析的重要方法。通过这个方法,既可以发现我们想重点监控的用户类型,也可以帮我们了解真正的用户使用习惯,避免产品设计“不按套路出牌”的辛酸事。
在应用Session分析的过程中,我们也要根据具体场景,应用不同的统计分析方法,以得出真正有指导价值的分析结论。