深度 | 常用数据分析方法之Session分析

[实用方法][数学原理]

封面用研整编文章

在用户分析领域，对用户行为洞察的需求正盛。本文介绍常用的Session分析方法，及10种常用的统计分析方法。

数据分析应该以业务场景为起始思考点，以业务决策作为终点。基本思路为5步，首先要挖掘业务含义、制定分析计划、从分析计划中拆分出需要的数据、再根据数据分析的手段提炼业务洞察，最终产出商业决策。

其中，Session是一种专业的数据分析。对于有数据驱动意识的互联网人来说，这并不陌生。Session 即会话，是指在指定的时间段内在产品上发生的一系列互动。例如，一次会话可以包含多个页面的浏览、事件、互动和交易。

Session分析可以帮助我们对用户的这一系列互动进行深入洞察，从不同的角度去探索用户的行为动机、偏好，甚至是无意识行为。

Session：解决用户分析中的“线”型难题——有何意义？

人们往往最熟悉事件分析模型，且用户行为事件往往以“点”的方式呈现，即某人在什么时间什么地点干了一件什么样的事，也就是我们熟知的 4W1H 模型：Who、When、Where、How、What。

王小明昨天下午在电商网站通过个性化推荐买了一双 NIKE 球鞋，张小花今天十点在融 360 上注册后领取了新人基金，某白领晚上六点在五道口区域扫码一辆摩拜单车并报修了它……

基于这样用户角度的行为记录，产品方可以知道他们的用户都具体干了什么事情。并对自己的产品做出精细化运营，但是，还有一些需求，是不能通过“点”来描述的，比如：

——用户平均会来几次？

——每次平均逛了几个页面？

——每次来平均待多久？

——某个具体页面用户平均停留多长时间？

这些需要把用户的单点行为串联起来形成一个整体，并在此基础上进行计算后才能得到的数据分析需求，更像是一条“线”。而 Session 分析的最大意义，就是解决用户分析中的“线”型难题，从不同角度指导精细化运营与商业决策。

如何用Session分析支持工作？

如果根据定义，Session 的关键点显然是：多长时间内用户做了什么事。

1：Session切割时间

假如王小明打开某企业官网了解信息，点击了 DEMO 按钮，并进行了注册试用行为，然后就被领导叫去开会，四十分钟后又跑回来继续浏览页面，这是几个 Session？。

这要看数据分析工具的 Session 切割规则，通常来讲，Web 产品建议切割时间为 30 分钟，APP 产品建议切割时间为 1 分钟，比较符合用户的使用习惯。当然规则是活的人也是活的，可以根据产品的业务形态变更。所以王小明两次浏览页面的时间超过了 Web 端的 30 分钟，被记录为两个 Session。

2：Session事件

Session 记录什么事件，取决于需要关注的用户行为。如果 Session 事件只包含了注册行为（核心事件），那王小明的行为将会被记录为一个 Session。如果包含浏览页面，则会被记录为两个 Session。

图1 不同切割时长的Session

那么Session分析究竟可以分析什么？

1：平均访问时长

平均访问时长是指在一定统计时间内，浏览网站的一个页面或整个产品时用户所逗留的总时间与该页面或整个产品的访问次数的比。

图2 平均访问时长

平均访问时长越久，证明 Web/APP 越有吸引力，如果用户停留的平均时间非常低，那么可能内容不够有趣，或界面优化较差，真正有价值的内容无法吸引用户，影响用户体验。

2：平均交互深度

平均交互深度和平均访问深度定义虽有差别，意义却很相似，都是衡量 Web/APP 质量的重要指标，可以帮助企业了解页面内容的价值，功能是否满足用户需求，指标的具体意义需要依照业务进行判断。

图3 平均交互深度

3：跳出率

跳出率和退出率是不同的概念。

跳出率=只浏览了一个页面就退出的次数/访问总次数，表现了用户什么都不做就从当前页面离开的百分比。

退出率=用户从某一页面退出网站的次数/该页面的浏览总次数，表现了用户从当前页面离开的百分比。

跳出率通常用于评估网站的用户体验，可以用于指导网站以及页面的改善，衡量的是该页面作为用户的落地页，吸引用户的程度。通常意义上，跳出率过高，代表网站对访问者的吸引率很低，网站/APP 功能得不到用户垂怜，公司岂不是做了无用功？但是这也不是绝对的，有些访问被算作跳出，但并不一定是负面的，例如用户按照你的引导点击外链跳转到你的新网站，为新网站拉新。具体场景需要具体分析。

退出率则应用更为广泛和灵活，一般用来衡量一个页面的内容是否满足用户需求，或者引导是否合理，因页面不同，意义也不同。每一个页面都可能成为退出页面，重要的在于，这个页面是不是关键流程页面，用户应不应该退出。

如何测量跳出率呢？

图4 跳出率

Session 分析是对一段时间内用户的操作（行为事件）进行分析，如果一个 Session 中只有一个事件（如浏览页面），即视为用户跳出。整体跳出率就是用跳出的Session 数/Session 总数，具体事件或页面的跳出率可以通过维度进行筛选。

图5 退出率

当用户从某个页面结束了 Session，即视为用户退出。页面退出率就是用页面的退出总次数除以该页面浏览总次数。

4：Session转化分析

用户分析中，有一个非常典型的分析需求是需要知道不同渠道带来的注册、购买等转化情况，该需求本质上，就是需要界定 Session，然后按渠道属性查看注册、购买等事件的转化数量。

5：用户路径

在业务流程中，了解用户的行为路径，有助于我们找到用户大量流失的环节，衡量网站营销推广效果。产品经理可以据此将用户行为流与初步设想进行对比，完善功能，优化用户体验。

使用用户路径分析，设定起始事件与 Session 切割时间，可以观察一个 Session 内用户的行为流。

路径分析怎么做呢？

用户路径的分析结果通常以桑基图形式展现，以目标事件为起点／终点，详细查看后续／前置路径，可以详细查看某个节点事件的流向，总的来说，科学的用户路径分析能够带来以下价值：

第一，可视化用户流，全面了解用户整体行为路径：

通过用户路径分析，可以将一个事件的上下游进行可视化展示。用户即可查看当前节点事件的相关信息，包括事件名、分组属性值、后续事件统计、流失、后续事件列表等。运营人员可通过用户整体行为路径找到不同行为间的关系，挖掘规律并找到瓶颈。

第二，定位影响转化的主次因素，产品设计的优化与改进有的放矢：

路径分析对产品设计的优化与改进有着很大的帮助，了解用户从登录到购买整体行为的主路径和次路径，根据用户路径中各个环节的转化率，发现用户的行为规律和偏好，也可以用于监测和定位用户路径走向中存在的问题，判断影响转化的主要因素和次要因素，也可以发现某些冷僻的功能点。

常用的统计分析方法论

在数据分析的背后，我们需要用科学的数学方法来支撑，我们与大家一起复习一下10种最常见的分析理论。最常用到的是描述性统计，同时，相关分析、聚类分析、时间序列分析等方法出镜率也相当高。

1：描述性统计

描述性统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征，找出数据的基本规律。

描述性统计分为数据的频数分析、集中趋势分析、离散程度分析、数据分布及一些基本的统计图形。

在日常的业务性分析中，描述性统计分析可以解决大部分问题。

（1）数据的频数分析：

在数据的预处理部分，我们利用频数分析和交叉频数分析来检验异常值。此外，频数分析也可以发现一些统计规律。比如说，收入低的被调查者用户满意度比收入高的被调查者高，或者女性的用户满意度比男性低等。不过这些规律只是表面的特征，在后面的分析中还要经过检验。

（2）数据的集中趋势分析：

数据的集中趋势分析是用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。各指标的具体意义如下。

平均值：是衡量数据的中心位置的重要指标，反映了一些数据必然性的特点，包括算术平均值、加权算术平均值、调和平均值和几何平均值。

中位数：是另外一种反映数据的中心位置的指标，其具体方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数。

众数：是指在数据中出现频率最高的数据值。

如果各个数据之间的差异程度较小，用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况，用中位数或众数有较好的代表性。

（3）数据的离散程度分析：

数据的离散程度分析主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。方差是标准差的平方，根据不同的数据类型选用不同的计算方法。

（4）数据的分布：

在统计分析中，通常要假设样本的分布属于正态分布，数据的正态性离群值检验，已知标准差时，用Nair检验，未知标准差时，有Grubbs检验，Dixon检验，偏度-峰度法等。

其中常用的“偏度-峰度法”需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度；而峰度衡量的是样本分布曲线的尖峰程度。一般情况下，如果样本的偏度接近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。

（5）绘制统计图：

用图形的形式来表达数据，比用文字表达更清晰、更简明。在SPSS软件里，可以很容易的绘制各个变量的统计图形，包括条形图、饼图和折线图等。

2：假设检验

假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。

具体做法是：

根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知。

由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。

常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等。

3：方差分析

方差分析又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

4：相关分析

相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。

常见的有线性相关分析、偏相关分析和距离分析。

相关分析与回归分析在实际应用中有密切关系。然而在回归分析中，所关心的是一个随机变量Y对另一个（或一组）随机变量X的依赖关系的函数形式。而在相关分析中，所讨论的变量的地位一样，分析侧重于随机变量之间的种种相关特征。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。

5：回归分析

回归主要的种类有：线性回归，曲线回归，二元logistic回归，多元logistic回归。

回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。

一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好地拟合实测数据。如果能够很好地拟合，则可以根据自变量作进一步预测。

6：聚类分析

聚类分析主要解决的问题是“物以类聚、人以群分”。比如以收入分群，高富帅VS矮丑穷；比如按职场分群，职场精英VS职场小白等等。聚类分析目前在用户画像研究中被广泛应用。

聚类的方法层出不穷，基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。

大致的思路是这样的：

（1）首先确定选择哪些指标对用户进行聚类；

（2）然后在选择的指标上计算用户彼此间的距离。

距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离。）。

（3）最后，聚类方法把彼此距离比较短的用户聚为一类，类与类之间的距离相对比较长。

常用的算法k-means、分层、FCM等。

7：判别分析

判别分析是从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。

常用判别方法：最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。

注意事项：

（1）判别分析的基本条件：分组类型在两组以上，解释变量必须是可测的；

（2）每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）；

（3）各解释变量之间服从多元正态分布（不符合时，可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时，判别函数不相同）。

相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。

应用领域：对客户进行信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。

8：主成分与因子分析

主成分分析基本原理：利用降维（线性变换）的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分）,即每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，将变量表示成为各因子的线性组合，从而把一些具有错综复杂关系的变量归结为少数几个综合因子。

因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系。

9：时间序列分析

经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列间的互相依赖关系。

后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。

例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。

10：决策树

决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

总结

Session 分析并不“包治百病”，但却是用户行为分析的重要方法。通过这个方法，既可以发现我们想重点监控的用户类型，也可以帮我们了解真正的用户使用习惯，避免产品设计“不按套路出牌”的辛酸事。

在应用Session分析的过程中，我们也要根据具体场景，应用不同的统计分析方法，以得出真正有指导价值的分析结论。

最后编辑于：2017.12.08 07:16:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

深度 | 常用数据分析方法之Session分析

Session：解决用户分析中的“线”型难题——有何意义？

如何用Session分析支持工作？

那么Session分析究竟可以分析什么？

常用的统计分析方法论

总结

推荐阅读更多精彩内容