2019-04-22

有时候不愿回学校去，因为，去了再走就是永远。

或许我喜欢你吧。

这次回学校，多了一个朋友。也多了一个特别的人。

用户画像的流程：

1.你那个文档我看了下.. 首先要写一下做用户画像要解决的问题...

2.然后将社会画像.. 行为画像分开来写... 模型那块你可以用数学表达式来表示.

3. 最重要的..画像的基础是基于统计分析的....你将统计分析的需求列出来....

4.最后用到的聚类那块,,你将算法的原理列出来..可行性分析,.,,然后训练集和测试集列一下...

5.最后写一下你的方案的存在的问题..后期怎么解决..目前市面上别人的方案是啥...后期的计划什么的

6.然后一步一步的完善你的方案.

东哥我理解的社会画像就是用户的基本信息画像了行为画像就是用户的点赞关注等的画像不知道我有没有理解对呢

恩..通常都是这么叫的...

好 OK 明白

你那个慢慢来...我想的是,你趁这个空档期..把每个部分都研究透彻点..... 查一下网上别人怎么弄..可以把相关的链接都记录下来.....

但是用户画像的一个基本要求画像必须是可以通用的。就需要有一系列的规范来保证每个字段必须是可解释的，数据的输出是规范一致的。一切的一切都应该是有文档来记录以保证画像的通用性。也即用户画像中的所有的字段适合所有的用户，只是输入和输出的数据不一样而已。用户画像也可以当作一个模型，输入数据，输出相应的数据。

用户画像的体系建设

单个的用户画像很好做，但用户画像真正想发挥用途，必须得建立起自己的体系来。这样才能对一个用户进行全方面的描述。打包卖给别人的话，也更加值钱。初步来看用户画像的体系建设应该包括几个方面

1.标签系统的顶层设计，具体就是我们这个标签系统系统需要为哪些业务方服务，需要涵盖哪些类别，需要做哪些标签

2.标签系统的维度系统建设，我们的画像对外输出，如果只是输出中文的话，不大好用，有时候也不大好处理，就需要我们将标签的输出的值数值化，维度化。整个标签系统的值都可以通过一个统一的数值系统或者向量系统来进行描述。

3.标签开发规范，这个是保证标签代码的可维护性，易读性。

4.标签系统的可扩展性，由于很多业务方都需要根据自己的需求来定制化标签，就要求我们的标签系统应该是可扩展的，外部业务方自己定制的标签如果符合我们标签的维度系统以及开发规范，就应该是可以扩展进我们本身的标签系统的，供给全公司使用。

5.标签对外平台的开发，所有的标签最好只能有一个统一的输出口径对外输出，这样就可以切实保证只有符合我们标签开发规范的标签接入其中，同时也能做好标签系统的权限管理。

用户画像当前的困境

目前大部分用户画像都是基于统计的方法来做的，这种方法的优点是基础准确率比较高，但是整体的覆盖率不会很高。比如我要在一个购物网站做用户感兴趣的商品的画像。如果我使用基于统计的方法利用用户在购物网站 pc，m，app端的点击，浏览，下单，购买等一系列用户行为来对用户打标签，只能够得到用户关于她／他已经点击，浏览，下单，购买的商品的画像。但是其他商品，我虽然没有点击，不代表我对这些商品没有兴趣，可是基于统计的方法无法推广到这些用户没用点击，浏览，下单，购买的商品。

基于统计的方法无法进行更深层次的推广，也就是缺乏我们常说的泛化能力，只会死读书，不会举一反三。我们更多的会通过使用机器学习或者其他算法来尝试解决这个问题。遗憾的是对于业界来说，这种标签占整个用户画像体系的比例也不会很高。因为这种标签做的费时费力，而且效果不一定好。有一个很关键的原因，我们举一个例子来尝试说明一下。比如某个汽车网站想预测用户有车无车，很多时候该汽车网站通过和4s店合作等等途径能够获取到只有哪些用户确切有车。我们在预测的时候，可以把这些有车的用户当作正样本来处理。问题在于我们找不到确切无车的用户，相当于找不到负样本。

一般的做法是我们把流量日志当中那些不是确切有车的的用户都当作无车用户来看，也就是当做负样本来看。但是这个只能说明这些用户只是在该公司的数据库里是没有买车的，他现实生活中可能是有车的，但是该公司并不清楚这一点。这样做的后果就是负样本里面参入了正样本，更可怕的是参入的比例有时候我们也不大好估计。这种情况就会导致模型在训练的时候准确率下降。

这样看来很多基于机器学习的算法其实都有样本标注的问题，对于这类标注的问题，一方面我们可以通过其他不同的数据来源，相互验证来保证标注的数据尽量准确。一方面可以考虑一下无监督的学习算法比如聚类算法来解决这个问题。但是目前来看，还不大清楚有没有其他比较实用的方式来解决这类问题。

一、如何建立用户画像

说白了主要是对两类客户的认知和判断：

现存客户 (Existing Customer) - 我的现存客户是怎么样，喜欢什么，什么消费习惯，哪些客户最值钱等等

潜在客户 (Prospect Customer) - 潜在用户又分：认知客户和竞品客户，我的潜在客户在哪，他们喜欢什么，通过什么渠道获取，获客成本是多少等等

分析的维度，可以按照人口属性和产品行为属性进行综合分析，

人口属性：地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等；

产品行为：产品类别、活跃频率、产品喜好、产品驱动、使用习惯、产品消费等；

这个问题从本质上看是两类问题：

1、对用户画像，打上标签。这是个聚类问题，将同一类用户通过算法聚合成一类。

2、对不同用户进行精准营销。这个问题是个预测问题，对用户行为建模，预测某一类用户会对什么更感兴趣。

一、先说第一类问题，聚类。这个成熟的算法很多，具体选择哪种就要看你的数据有什么了。既然叫做数据分析，那边必然是以你的数据为准基础的，看你的数据包含什么，如果能把用户映射到某一个空间里面，表示成向量（也就是高维空间的坐标），就可以kmeans，DBscan等等方法来进行聚类，如果只能给出两两用户的相似度，那么就是用基于层次聚类的算法。再重申一遍，关键是数据。

二、就是对用户行为建模，同样因为不了解数据，就只能简单讲一讲普通的流程。精准营销这个问题可以规约为预测用户对什么商品感兴趣。这个建模流程简单来说应该包含下面几个过程：

a、选取特征，从历史数据中选择、构造出一些特征，假设这些特征和要预测的值之间的一个关系（这个关系也就是你的模型）。这一步是定性的过程。

b、确定模型中的未知系数，也就是定量的过程。

c、计算模型的置信度，根据测试集数据（从历史数据中选择一部分出来，分割方法很多，自行百度交叉验证）来判断预测准确性，如果符合要求，就可以用这个模型来预测用户喜欢什么，进行精准营销，如果准确性不满足要求，那么就再重复上述过程，构造更复杂的特征，或者收集更多数据，尝试其他模型。

（1）定性与定量相结合的研究方法

定性的方法，表现为对产品、行为、用户个体的性质和特征作出概括，形成对应的产品标签、行为标签、用户标签。是描述性的

定量的方法，则是在定性的基础上，给每一个标签打上特定的权重，最后通过数学公式计算得出总的标签权重，从而形成完整的用户模型。是可量化的。

关于建立用户画像、标签化的问题，不仅需要从已有的用户数据进行定量分析，还需要以问卷、访谈等形式进行定性研究。定量和定性分析相结合，才有可能得出一个更为精准的用户画像。但更重要的是以用户为中心，而不是以数据为中心。

用户的行为，我们可以用4w表示：WHO（谁）；WHEN（什么时候）；WHERE（在哪里）；WHAT（做了什么），具体分析如下：

WHO（谁）：定义用户，明确我们的研究对象。主要是用来用户分类，划分用户群体。网络上的用户识别，包括但不仅限于用户注册的ID、昵称、手机号、邮箱、身份证、微信微博号等等。

WHEN（时间）：这里的时间包含了时间跨度和时间长度两个方面。“时间跨度”是以天为单位计算的时长，指某行为发生到现在间隔了多长时间；“时间长度”则为了标识用户在某一页面的停留时间长短。越早发生的行为标签权重越小，越近期权重越大，这就是所谓的“时间衰减因子”。

WHERE（在哪里）：就是指用户发生行为的接触点，里面包含有内容+网址。内容是指用户作用于的对象标签，比如小米手机；网址则指出用户行为发生的具体地点，比如小米官方网站。权重是加在网址标签上的，比如买小米手机，在小米官网买权重计为1,，在京东买计为0.8，在淘宝买计为0.7。

WHAT（做了什么）：就是指的用户发生了怎样的行为，根据行为的深入程度添加权重。比如，用户购买了权重计为1，用户收藏了计为0.85，用户仅仅是浏览了计为0.7。

当上面的单个标签权重确定下来后，就可以利用标签权重公式计算总的用户标签权重：

标签权重=时间衰减因子×行为权重×网址权重

举个直观的例子，通过用户的行为数据，“B用户今天在苹果官网购买了iPhone6”反映出的用户标签可能是“果粉1”；而“A用户三天前在天猫收藏了iPhone6”反映出的标签可能只是“果粉0.448”，这些可以给不同用户打上不同的标签和权重。

有了标签和权重后，这将在后续的营销决策中发挥指导作用，比如广告重点推送给这些用户，以及协同推荐。

二、用户画像的利用

关于得到用户画像后可以区分不同用户级别从而进行相应的精准营销的问题，推荐引擎利用特殊的信息过滤技术，将不同的内容推荐给可能感兴趣的用户。较常见的推荐引擎通用算法有

（1）基于关联规则的推荐算法（如买了泳衣的用户可能会买泳镜）；

（2）基于内容的推荐算法（需要用户的历史数据，例如我在淘宝上买了个猫砂盆，转眼第二天又给我推荐了一个猫砂盆）；

（3）协同过滤推荐算法。

协同过滤推荐的核心是找到和目标用户兴趣相似的用户群，技术上叫“最近邻居”（Nearest Neighbor）。

通过最近邻居对商品的加权评价来预测出目标用户对该商品的喜好，从而进行精准推荐。套到题主所说的用户画像，那么可以理解为：系统匹配与目标用户的画像所相似的用户群，然后推荐这类用户群感兴趣的商品给目标用户。

简单来说，物以类聚，人以群分。

最后补充一点关于协同过滤推荐的最主要的优缺点。

优点：可以过滤难以进行内容分析的商品，例如音乐。且推荐具有新颖性。

缺点：用户做出评价较少的情况下，数据不充足，产生稀疏性问题。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

2019-04-22

用户画像的流程：

用户画像的体系建设

用户画像当前的困境

一、如何建立用户画像

推荐阅读更多精彩内容