埋点采集过程:
1.用户点击或输入连接
2.客户端发送请求
3.服务端接受请求,进行解析,并返回内容和埋点的代码
4.客户端解析返回内容并展示,同时客户端解析埋点代码
5.客户端发送所需要的埋点信息到埋点服务器
6.埋点服务器接受信息
7.埋点服务器讲信息传输到后续的环节。
埋点加工和存储过程:
1.对于离线存储来说,埋点原始数据会以表(类似excel表)的形式存储于数据仓库的原始数据层。
2.经过加工处理过的数据(例如:针对APP首页曝光事件,选取当日首页曝光事件上传的数据条数,对用户id去重并加和即可以得到当日的UV),会以另外一张表的形式存储于数据仓库的汇总层。如果数据仓库建设比较完善,通用的业务数据,直接从汇总层甚至更上层的应用层中取即可,而不必再去取原始层的埋点数据,省去了每次计算的工作量。
原文链接:https://zhuanlan.zhihu.com/p/109950339?from_voters_page=true
埋点常见问题:
1.不同平台采集的同一个属性值【页面名】口径不一
2.采集用户点击banner的点击事件,两个用户分别点击1号和3号banner,返回banner名字不可识别。根本不能反馈出用户到底点了什么,根本不能对这个数据进行分析。
3.采集用户注册时间,注册是后端采集的。后端埋点没有前端页面和平台信息。但如果采用前端采集就可能有不合理的数据。例如一个用户因网络问题多次点击,前端埋点就会产生很多误差数据。
如何提高埋点质量:
1)做好产品需求分析,准确抓住需求以便后续设计数据埋点方案。
2)根据不同的业务场景选择正确的埋点方案,准确区分常见埋点方式所适用的业务场景。
3)准确梳理产品逻辑关系,把同属性的埋点事件用同一个ID表示,结合KEY-VALUE细分不同维度下的不同参数,方便后续进行数据分析,降低维护成本,提高其他业务人员、数据分析师根据埋点日志进行查询和分析的效率,减少沟通成本。
4)使用指标字典对指标进行统一管理,方便共享达成业务指标的共识,并且统一修改和维护。指标字典是业务数据标准化的基础。
如何做好数据指标字典:
①规范维度和量度命名,命名规则要做到明确、通用、易懂。
②对维度或量度统一计算口径,避免歧义。
③涵盖尽可能多的关注核心维度和量度,以此为基础推动数据建设,确保指标字典覆盖维度都可区分,指标都可统计。
④基于指标字典,将核心维度和量度注入元数据中心,接入指标提取工具,后续实现不需要写SQL语句即可完成自主查询及分析需求。