一、用户画像基础

1、什么是用户画像

用户画像，即用户信息标签化，通过收集用户的社会属性、行为方式、偏好特征等多维度数据，运用大数据技术进行数据刻画，并对数据进行分析、统计、挖掘，抽象出用户的信息面貌。

2、用户画像的作用

相对于”静止的“传统统计类报表，用户画像使数据更加形象化，并能针对用户进行个性化推荐、精准营销、个性化服务等

3、标签类型有哪些

统计类标签：指统计用户相关数值，客观描述用户状态的标签。可以从用户的静态属性，比如出生日期、注册数据、消费数据等可以得到用户的年龄、星座、活跃时长、活跃次数、消费次数和金额等
规则类标签：一般指根据运营需要，在业务层制定规则的标签。这列标签会带有人为主观判断因素，因此在开发前需要进行数据摸底。例如用户的活跃度、价值度等，这类标签需要通过指定的数据口径计算后来定义
机器学习挖掘类标签：这类标签通过对用户的行为和数据进行预判，例如通过用户的收藏、下单、评价等信息判断对商品的喜爱程度

4、用户画像覆盖的模块

指标体系：根据业务线梳理，包括用户属性、用户行为、用户消费、用户风控等维度的指标体系
数据存储：标签数据的存储方式，包括mysql、hive、hbase、es等，不同的业务场景针对不同的存储方式
标签开发：重点模块，包含统计类、规则类、挖掘类等标签的开发，以及开发标签提供的服务
画像产品化：为了更方便服务于业务方，需要将用户画像产品化，其中产品化的模块包括标签视图、标签查询、用户分群、透视分析等
用户画像应用：用户画像应用场景包含用户特征分析、短信、邮件、push消息的精准推送以及针对不用用户的客服话术，高价值用户等VIP服务

二、标签数据开发

1、标签存储

介绍了不同应用场景下的标签存储方案

hive：存储数仓底层宽表，涉及大量的计算用户标签的ETL任务，并存储着各种维度额用户标签数据
mysql：用于存储元数据和监控预警数据，例如录入的用户标签元数据（标签ID，标签名，标签主题，类别等）、数据同步任务和结果的监控信息等
hbase：存储hive计算的结果和实时写入的数据，服务于线上业务的访问
es：构建hbase的二级索引，快速筛选符合条件的用户进行透视分析

2、标签开发

标签开发包括以下几个内容：

离线和实时用户标签的开发
用户特征库开发
人群计算
打通数据服务层

a、统计类标签开发

用户相关的静态属性、客观的消费数据（购买次数、购买金额、近30天加入购物车次数）、登录天数（近30天的来访记录）等的统计类报表

b、规则类标签开发

在业务层制定规则的标签，用两个例子来说明：

RFM：由3个基础指标组成，最近一次消费（Recency）、消费频率（Frequency）、消费金额（Money），这3个基础指标组成8个类型人群

RFM人群.png

计算过程中，可以先计算整体数据后再运用帕累托法则定义各个细分的等级，例如消费频率的等级划分，计算出近一年用户累计交易量在5次以上的达到80%，即可定义一年内交易5次以上的为高频次

用户活跃度标签：根据用户的活跃情况打上高活跃、中活跃、低活跃、流失等标签

首先划分出用户的流失周期，在流失周期内再进一步划分出用户的高中低活跃度。划分流失周期可以参考以下两种方式
1. 圈定部分首次访问的用户，分析后续该批用户随着时间推移的访问行为曲线图，即可判断出曲线下降明显的转折点所对应的天数为流失周期
2. 统计用户最后一次访问与倒数第二次访问之间的时间间隔，分析方式与上面类似
划分出流失周期后，可以再根据用户在某个时间段内的来访人数占比或者某段时间内的GMV占比划分出对应的高中低周期

c、挖掘类标签

应用算法挖掘用户的相关特性，比如根据用户行为判断男女性别，判断用户购买偏好、预测用户是否下单等

d、实时用户标签开发

新用户推送首单优惠营销活动、根据访问商品推送相关类目产品

e、用户特征库开发

用户特征库就是用户每一次的不同行为及该行为对应的标签进行详细的记录，以便从用户的行为特征中挖掘用户的偏好，大多从埋点日志、访问日志、订单数据来对用户不同行为的数据统计

3、权重计算

用户标签也会有不同的权重，例如下单某商品的行为权重要比收藏商品、加购商品、搜索商品的权重高，用户的不同行为对应到不同的标签有着不同的行为行为权重，因此，给用户打标签的时候，也需要结合不同的业务场景界定不同行为的权重

介绍两种跟权重打分有关的内容

TF-IDF词空间向量

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降

TF-IDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)

TF：表示词条t在文档d中出现的频率，计算公式：

$TF(i，j) = \frac{n_{i，j}}{\Sigma_kn_{k，j}}$

i 表示文档中的某个词，j 表示某个文档

IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力，计算公式：
$IDF(i) = lg\frac{|D|}{|\{j:t_i\epsilon{d_j}\}|}$

|D|：语料库中的文件总数

：包含词语的文件数目（即的文件数目）

通过TF-IDF算法计算得到的标签权重只是初步的结果，因为是未考虑业务场景的
时间衰减系数

当用户行为数据积累得足够密集后，用户打上相对应的标签会表现出较高的稳定，但是这种稳定性缺乏相对弱的适应性，因为这种稳定的标签不能反映当下用户近期的行为变化，因此引入了时间衰变系数，根据用户发生时间的先后行为进行权重的分配。

时间衰减是指随着时间的推移，用户的历史行为和当前行为的相关性不断减弱，在建立与时间衰减的相关函数时，可以参考牛顿冷却定律数学模型。

可以参考的用户权重打分公式：

<center>用户标签权重=行为类型权重时间衰减用户行为次数*TF-IDF计算标签权重</center>

4、标签相似度

标签相似度指的的用户被打上A标签时会被同时打上B标签，此时可以说A、B标签可能存在某种相关性（啤酒和尿不湿的相关性例子）

可以采用余弦定理来计算两两标签之间的相关性，余弦值的范围是-1到1之间，余弦值越接近1，表名两个向量之间的相似性越大。

5、组合标签

将多种标签组合成一个人群标签，通过去es上查找符合标签的对应RowKey，再去HBase中查询出目标用户

三、用户画像产品化

用户画像系统搭建完成后，需要进行产品化，以帮助业务人员进行用户分析、营销和服务。

用户画像产品化的几个应用场景：

1、经营分析

商品分析：爆品分析
用户分析：年龄、职业、性别，精准推荐
渠道分析：增长黑客理论（AARRR）模型，将产品的营收路径拆分为激活-注册-留存-下单-传播，新客获客成本是比较高的，分析不同渠道在这些环节上的转化率（转化率的成本也要计算和评估）来使得渠道投放的策略更有针对性
漏斗分析：场景主要有产品流程关键路径转化分析（电商购买流程）、业务价值路径的转化流程追踪（常用的AARRR模型的价值转化追踪）
客服话术

2、精准营销

短信、邮件营销

对一个用户人群发送有针对性的文案进行用户营销
效果分析

针对目标人群精准消息推送后带来的流量提升、营收提升分析
个性化推荐与服务

针对高质量用户提供专门的服务（淘宝的极速退款），KA用户的VIP专人客服等，提升用户体验

3、风控

金融服务领域，识别多头借贷用户、针对用户行为进行的反欺诈、黑名单与白名单、准入策略等

4、A/B测试

对同一个用户人群中的不同用户制定不同的营销方式，通过A/B test分析哪个方式可以带来更高的转化率或增长率，再选择好的营销方式来正式上线运营

5、用户生命周期划分和营销

用户生命周期是指从用户使用到离开的一个发展过程，生命周期价值指的是这个发展过程中用户为产品带来的价值总和

用户生命周期划分：引入、成长、成熟、衰退、流失，用户进入产品后，并不一定会走完完整的周期，每个阶段都会为产品代码不同的价值

通过对不同阶段的用户使用不同的触达策略来提升转化率

【读书笔记】用户画像