Tensorflow机器学习--图文理解Word2Vec

由于本人初学机器学习&Tensorflow,文章中若有错误,希望评论指出,不胜感谢。

一、Word2Vec问题是什么?

Word2Vec 即 Word to vector,词汇转向量。
我们希望词义相近的两个单词,在映射之后依然保持相近,词义很远的单词直接则保持很远的映射距离:如下图所示,这里介绍到了 t-SNE 方法可以很好的达到效果:
关于t-SNE这里推荐一篇文章:
http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis

416BA7CE-4342-4835-85DA-D0789F3A25D7.png

二、从实例代码中学习

起初看了网上很多资料,关于 Word2Vec 真心学的云里雾里。在 Tensorflow 中 Vector Representations of Words 字词的向量表示这一章卡了很久。于是我尝试看 word2vec_basic.py 的源码来理解一下Word2Vec最简单的实现。
看完200多行的源码, Tensorflow 自身的注释 就关于Word2Vec实例总结为6步:

  1. 下载数据
  2. 将原词汇数据转换为字典映射
  3. 为 skip-gram模型 建立一个扫描器
  4. 建立并训练 skip-gram 模型
  5. 开始训练模型
  6. 结果可视化

这里忽视第六步,从第1步到第5步,我将使用图片和一些代码来贯通Word2Vec整个过程。
首先打开下载进来的word词汇数据,由于是无监督学习,并没有标签,就只是整整100M大小文本数据。
这是第一步下载得到的数据:


0A4FB7AE-6C56-4960-97EC-86948F7613EF.png

然后开始第二步将原词汇数据转换为字典映射,比如我取出这段文本的头一句,它会进行如下变换:

01E9A1B7-D990-4298-A303-967415F420FC.png

现在我们的词汇文本变成了用数字编号替代的格式以及词汇表和逆词汇表。逆词汇只是编号为key,词汇为value。
接着开始第三步,为skip-gram 模型建立一个扫描器,首先看一下扫描器函数:

def generate_batch(batch_size, num_skips, skip_window):

batch_size是指一次扫描多少块,skip_window为左右上下文取词的长短,num_skips输入数字的重用次数。假设我们的扫描器先扫这大段文字的前8个单词,左右各取1个单词,重用次数为2次。我们就会观察到如下结果:

D309AA22-D064-48F9-8D36-B285A6BA4331.png

现在通过上面一步,我们构造出了input和label,就可以进行监督学习,下面

B26EC656-C5FA-4E6E-80C4-2B47B7509C08.png

什么是NCE Loss呢?这里为什么不用更为常见的Softmax + Cross-Entropy 呢?

19DB34BA-EF80-4902-B710-11CAAC8DA122.png

因为如果在这里使用Softmax + Cross-Entropy作为损伤函数会有一个问题,Softmax当有几万+的分类时,速率会大大下降。

其速度对比如下:
10000 个类,Softmax每秒处理 10000 个样本,NCE每秒处理 30000 个样本
100000 个类,Softmax每秒处理 1000 个样本,NCE每秒处理 20000 个样本
此实验结论由其他同学得出,给出实验链接:https://zhuanlan.zhihu.com/p/21642643

这里再整理出其他同学关于 NCE LOSS 源码的理解,下面就是一段 NCE LOSS 的实现代码,但不得而知 Tensorflow 是否使用该NCE LOSS的实现。


def nce_loss(data, label, label_weight, embed_weight, vocab_size, num_hidden, num_label):
    label_embed = mx.sym.Embedding(data = label, input_dim = vocab_size,
                                   weight = embed_weight,
                                   output_dim = num_hidden, name = 'label_embed')
    label_embed = mx.sym.SliceChannel(data = label_embed,
                                      num_outputs = num_label,
                                      squeeze_axis = 1, name = 'label_slice')
    label_weight = mx.sym.SliceChannel(data = label_weight,
                                       num_outputs = num_label,
                                       squeeze_axis = 1)
    probs = []
    for i in range(num_label):
        vec = label_embed[i]
        vec = vec * data
        vec = mx.sym.sum(vec, axis = 1)
        sm = mx.sym.LogisticRegressionOutput(data = vec,
                                             label = label_weight[i])
        probs.append(sm)
    return mx.sym.Group(probs)

NCE的主要思想是,对于每一个样本,除了本身的label,同时采样出N个其他的label,从而我们只需要计算样本在这N+1个label上的概率,而不用计算样本在所有label上的概率。而样本在每个label上的概率最终用了Logistic的损失函数。

80229FA5-A268-4923-B2ED-24B6F8EFAA37.png

这里可谓是整个 Word2Vec 的关键。
至此,已经搭建好训练模型,然后便可以进行分批次的训练即可。那么下一个问题是完成训练后,我们如何判断两个词汇的相似度?


4B22A93C-0BAD-496D-B735-5DC021172302.png

这里我们使用 cos 来表示相似度会比使用 l2 向量差值会好一些。
这是根据训练方式所决定的,因为向量的长度与分类无关,

 norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))
 normalized_embeddings = embeddings / norm
 valid_embeddings = tf.nn.embedding_lookup(
      normalized_embeddings, valid_dataset)
 similarity = tf.matmul(
      valid_embeddings, normalized_embeddings, transpose_b=True)

参考自Udacity中文本和序列的深度模型一课:https://classroom.udacity.com/courses/ud730/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容