用户画像(一)|计划制定

最近准备研究下用户画像,先制定一个计划,在简书上记录下,希望得到同道中人一起讨论。

一、目的

用户画像的目的

用户画像的目的是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。
如:

用户A的职业,标签为“程序员”,权重为0.8;标签为“用户运营”,权重为0.3。
用户A的性别,“男”的权重为0.7;“女”的权重为0.3。
用户A的年龄,20岁以下的权重为0.6;20-30岁的权重为0.3;30岁以上的权重为0.9。

标签:表征了内容,用户属于或者是对该内容有兴趣、偏好、需求等等。
权重:表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。

二、数据源分析

构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。
如:

世界上分为两种人,互联网行业和非互联网行业;
用户分四种,核心用户、储备用户、重点用户和可挽回用户;
用户地域分四种类型,一线城市、二线城市、三线城市和四线城市…

所有的子分类将构成了类目空间的全部集合。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,按需划分即可。

三、数据建模

如何根据用户行为,构建模型产出标签、权重。
一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,对什么对象,做了什么事。

3.1、什么用户

关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。
以下列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。

标识用户的方式

3.2、在什么时间

时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒)。时间长度,为了标识用户在某一页面的停留时间。

3.3、什么地点

用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。
网址:每个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机APP上的内容。如,一面的启动页,一面的主题内容页。
内容:每个url链接(页面/屏幕)中的内容。可以是某个内容的相关信息:内容平台、内容类别、标题、描述等等。
对于每个互联网接触点,其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个APP的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。

3.4、对什么对象

其实上面的用户接触点已经说明了一种对象——内容。我这边之所以还单独把对象拿出来作为一项,是因为这个对象有可能是我们自己造出来的,比如简书中某个专题中的内容肯定是一个对象,但是如果一个专题里面没有内容,那么它也是一个对象,我们为这个对象设定的标签也可能是不一样的,如果某个专题只有2个人,一男一女,那么我们可能就会为这个我们造出来的对象打上一个“情侣”的标签,如果是只有男人,我们可能就会打上“同志”的标签。

3.5、做了什么事

用户行为类型,对于一个内容为主的APP来说有如下典型行为:浏览、点赞、评论、收藏等等。
不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,收藏权重计为5,浏览计为1。

3.6、总结

综合上述分析,用户画像的数据模型,可以概括为下面的公式:
用户标识 + 时间 + 行为类型 + 接触点(网址+内容)
某用户因为在什么时间、某个地点、对某个对象,做了什么事。所以会打上XX标签。
用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:
标签权重=衰减因子×行为权重×位置权重
当然,很多时候标签本身也是有权重的。
如:用户A,昨天在发现频道浏览“2018年必看惊悚恐怖片之一:XXX电影”的主题内容。
我们为这个内容打的标签为:恐怖 0.6,电影 0.8
时间:因为是昨天的行为,假设衰减因子为:r=0.95
行为类型:浏览行为记为权重1
地点:在发现频道为 0.6(相比在我的-我创建的主题中的0.9)
则用户偏好标签是:电影,权重是0.95*0.6 * 1=0.57,即,用户A:恐怖 0.57、电影 0.57。最后再乘以标签自己的权重。

上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。

四、计划

根据上面的介绍,我们知道如果要为一个平台做用户画像,那么首先要做的就是根据自己的业务需求进行建模。

4.1、为数据建模

确定每个位置和行为的权重,以及造出的对象的权重。
对象(标签)、位置(权重)、行为(权重)、时间衰减值等

4.2、为文章内容打上标签

这里需要的就是一些提取文章内容的标签算法,同时需要考虑内容中标签的自己的权重值。

4.3、根据内容与对象的标签和数据建模中定义的权重跑出用户画像

实践是检验真理的唯一标准
要想知道自己的数据建模是否合理,为文章内容打标签的算法的正确性是怎么样的。
实践吧~


用户画像我将作为一个系列来记录,欢迎前辈们多多指导

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,302评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,232评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,337评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,977评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,920评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,194评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,638评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,319评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,455评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,379评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,426评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,106评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,696评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,786评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,996评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,467评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,043评论 2 341