本质
用户画像是对现实用户的数据建模
标签是一个符号并且与业务紧密相连才有意义
标签的评判标准定义. 例如,假设我们有一个类目就是洗车,那很好办,如果用户下过洗车的单子,那么该用户就打上这个标签
谨记
构建用户画像,确定标签要与业务部门和产品部门共同商量确定,因为用户画像与业务紧密相连,标签体系是搜集所有业务方面的需求。
验证
验证需要两方面考究。第一,标签是否准确。第二,标签是否齐全。但是无法保证这两者100%符合,尤其是后者,因为业务不断变化,导致最多在一段时间内标签的齐全,抑或多数情况下标签是不齐全的。
所以我们通常判断的是准确性。准确性的判断有两类。第一类,以实时为依据,比如用户的性别,通过数据是可查究的。第二类,无事实为依据,比如用户的忠诚度,只有通过线上数据的A/B Test来对比验证。
①用户数据采集
多种数据源,不同终端(Web、App、H5、桌面软件)用户行为,后端系统日志(Web server Log),业务数据( DB )
②数据接入与存储
实时导入数据,数据格式从此统一、完备。先进的事件—用户数据模型,为分析用户行为提供坚实基础
③可视化查询与分析
多维事件分析、漏斗分析、留存分析、用户分群、行为轨迹分析和回访分析,不同分析模型帮助揭示数据背后的含义,深度解答各种问题。
支持将任何分析查询添加到数据概览。配置数据概览。
技术架构
海量日志(一般为流式数据,如,搜索引擎的pv,查询等)数据提取 Hadoop的Chukwa,Cloudera的Flume,FaceBook的Scribe
分布式数据存储技术 HBase 、HDFS
Sqoop 用于 Hadoop、Hive 与传统数据库 MySQL、Oracle之间数据转换
Hive、SparkSQL、MapReduce处理数据数据分析、挖掘
Storm、Spark等实时技术 流式数据处理
Karmasphere 数据查询和呈现
R取样本,假设检验,做回归
机器算法 聚类 KMeans DBscan 分类和回归 贝叶斯算法 预测 Boosting,Bagging