2019-04-24

Embedding和One_hot将词变成向量的例子：

词嵌入（Word Embedding）

Word embedding 是NLP中一组语言模型（language modeling）和特征学习技术（feature learning techniques）的总称，这些技术会把词汇表中的单词或者短语（words or phrases）映射成由实数构成的向量上。

最简单的一种Word Embedding方法，就是基于词袋（BOW）的One-Hot表示。这种方法，把词汇表中的词排成一列，对于某个单词 A，如果它出现在上述词汇序列中的位置为 k，那么它的向量表示就是“第 k 位为1，其他位置都为0 ”的一个向量。

例如，有语料库如下：

John likes to watch movies. Mary likes movies too.

John also likes to watch football games.

把上述语料中的词汇表整理出来并排序（具体的排序原则可以有很多，例如可以根据字母表顺序，也可以根据出现在语料库中的先后顺序）

假设我们的词汇表排序结果如下：

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also":6, "football": 7, "games": 8, "Mary": 9, "too": 10}

那么则有如下word的向量表示：

John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

……

此时，你也可以进一步地把文档也表示成向量。方法就是直接将各词的词向量表示加和，于是则有原来的两句话的向量表示如下：

[1, 2, 1, 1, 2, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

One-hot方法很简单，但是它的问题也很明显：

1）它没有考虑单词之间相对位置的关系；

2）词向量可能非常非常长！

针对第一个问题，你可能会想到n-gram方法，这确实是一个策略，但是它可能会导致计算量的急剧增长。因为n-gram已经在之前的文章中解释过了，下面我们来看另外一个方法：共现矩阵 (Cocurrence matrix)。

一个非常重要的思想是，我们认为某个词的意思跟它临近的单词是紧密相关的。这是我们可以设定一个窗口（大小一般是5~10），如下窗口大小是2，那么在这个窗口内，与rests 共同出现的单词就有life、he、in、peace。然后我们就利用这种共现关系来生成词向量。

例如，现在我们的语料库包括下面三份文档资料：

I like deep learning.

I like NLP.

I enjoy flying.

作为示例，我们设定的窗口大小为1，也就是只看某个单词周围紧邻着的那个单词。此时，将得到一个对称矩阵——共现矩阵。因为在我们的语料库中，I 和 like做为邻居同时出现在窗口中的次数是2，所以下表中I 和like相交的位置其值就是2。这样我们也实现了将word变成向量的设想，在共现矩阵每一行（或每一列）都是对应单词的一个向量表示。

虽然Cocurrence matrix一定程度上解决了单词间相对位置也应予以重视这个问题。但是它仍然面对维度灾难。也即是说一个word的向量表示长度太长了。这时，很自然地会想到SVD或者PCA等一些常用的降维方法。当然，这也会带来其他的一些问题，例如，我们的词汇表中有新词加入，那么就很难为他分配一个新的向量。

语言模型——N-gram

Word2Vec

Word2Vec之所以现在这么流行，不同于之前的一些Word Embedding方法，它能够自动实现：1）单词语义相似性的度量；2）词汇的语义的类比。此处，语义的类比，反应的是类似下面这种关系：

“国王” – “王后” ≈ “男” – “女”

“英国”–“伦敦”≈ “法国”– “巴黎”≈ “首都”

用模型去做用户画像。而不是人工的去打标签。

什么是用户画像？

用户画像是对现实世界中用户的数学建模，它包括两方面：

一方面是描述用户，没有说人，是说明它跟业务密切相关，它是从业务中抽象出来的，因此来源于现实，高于现实。

第二个是用户画像它是一种模型，是通过分析挖掘用户尽可能多的数据信息得到的，它是从数据中来，但对数据做过了抽象，比数据要高，后面所有用户画像的内容都是基于这个展开的。比如刚刚说的月光族，这个肯定是挖掘分析出来的，不是说原来的数据中包含月光族这个标签，所以说这是它的两层含义。

然后就是刚刚说的，用户画像是现实生活中的数学建模，但是我们如何描述这样一个模型，核心是要有一套标准的知识体系，描述用户画像。

另外一个方面，就是要有一套数据化、符号化、形式化的方式去描述这套知识体系，什么叫形式化？就是机器要能够理解这套知识体系，如果只有人理解的话，这个东西是没有办法使用的，所谓形式化就是这个含义。

关于标签的介绍

从整个业界来看，整体模型也差不太多，能拉开差距的基本还是对数据的理解和数据的处理上。

标签：对某一类特定群体或对象的某项特征进行的抽象分类和概括，其值（标签值）具备可分类性。

对于“人”这类群体，可将“男”、“女”这类特征进行抽象概括，统称为“性别”，“性别”即一个标签；

对于“手机”这类对象，可将“骁龙835”、“骁龙845”这类特征进行抽象概括，统称为“手机处理器”，“手机处理器”即一个标签。

标签值: 标签的实例，指某一标签所包含的具体内容，其特点是符合MECE原则（相互独立、完全穷尽）。

对于标签“性别”，其标签值根据MECE原则可分为“男”、“女”、“未知”；

对于标签“年龄”，其标签值可分为“0-18”、“18-35”、“35-60”、“60-100”等。

用户画像:由某一特定群体或对象的多项特征构成，输出结果通常是对特征的具体描述。（也可理解为用户画像是由多个标签组合而成，其实例是由多个标签值构成）。

例：小明是用户画像的一个实例，小明的输出结果为“男“、“20”、“iPhone”、“北京”、“足球”，是由多个标签中的具体标签值构成。

标签系统:标签和用户画像的整合应用中心，通常由标签、标签树、画像中心构成，该体系类似于一个目录字典，以文档的形式存在。

用户画像的基本流程

1）构建标签体系，标签体系一般是分几个层级，有一级类目、二级类目、三级类目，这几个只是类目或者称之为父标签，不是最终的标签。如果三级类目下面不再进行类目分级了，就到了具体的标签层。比如用户基本信息是一级类目，下面又有社会属性二级类目，最后到婚姻标签。标签体系类似于业务分层的一个字典，以文档的形式存在。

2）抽取或者衍生标签，收集用户所有可能的、重要的、缺失率比较低的原始特征数据，作为可存储的、细粒度的用户画像表特征，也称为基础标签。除了原始数据，也可以在原始数据基础上融合衍生出新的特征标签，都作为基础标签存储在用户画像表里面。用户画像表是用户画像的基础，一般包含身份信息、行为偏好、征信数据、社交关系等几大层面。

3）物理存储，利用hive生成一张用户画像表，并做定时更新。

4）应用层

客群分析，在用户画像表的基础上可以进行客群分析。首先根据需求从用户画像表里将客群提取出来，然后对这部分客群进行统计分析，或者说数据分析，最终凝练出一些可描述的、抽象层次较高的标签，作为最终的客群分析报告标签，展示在报告里面。

单个用户分析，比较类似于客群分析，最终也需要提炼总结出几个可描述的、便于常人理解的大标签，可以放到一个类似于人形状的图形上进行展示。

其它应用，利用营销推荐，多维角度分析等

三、数值型字段如何衍生出区间或者等级型标签呢？

如果是数值型字段，比如离散类型的，可以根据分箱机制进行分段；也可以利用聚类算法，对一元数据进行区间划分，充分挖掘数据内在的分布状态，划分为几个等级，而不是平均分段或者拍脑门分段。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

2019-04-24

2019-04-24

Embedding和One_hot将词变成向量的例子：

语言模型——N-gram

Word2Vec

用模型去做用户画像。而不是人工的去打标签。

什么是用户画像？

关于标签的介绍

用户画像的基本流程

构建用户画像的流程

推荐算法中用户画像构建

《用户网络行为画像》读书笔记（五） —— 协同过虑算法

《用户网络行为画像》读书笔记（四） —— 常见推荐算法

《用户网络行为画像》读书笔记（二） ——用户画像建模

推荐系统之矩阵分解及C++实现

[机器学习]推荐系统之协同过滤算法

再谈矩阵分解在推荐系统中的应用

猜你喜欢-----推荐系统原理介绍

浅谈矩阵分解在推荐系统中的应用

推荐系统相关算法(2)：k-nearest neighbor

K-nn与K-means的区别

推荐阅读更多精彩内容