Gensim Word2vec 使用指南

本文主要内容翻译自 Word2vec Tutorial

Gemsim 安装

快速安装

  • easy install -U gensim
  • pip install --upgrade gensim

依赖

  1. Python >= 2.6
  2. NumPy >= 1.3
  3. SciPy >= 0.7

输入

Gensim Word2vec 使用一个句子序列作为其输入,每个句子包含一个单词列表。

sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)

用 Python 内置的 list 类型作为输入很方便,但当输入内容较多时,会占用很大的内存空间。Gemsim 的输入只要求序列化的句子,而不需要将所有输入都存储在内存中。简单来说,可以输入一个句子,处理它,删除它,再载入另外一个句子。

举例来说, 假如输入分散在硬盘的多个文件中,每个句子一行,那么不需要将所有输入先行存储在内存中,Word2vec 可以一个文件一个文件,一行一行地进行处理。

class MySentences(object):
    def __init__(self, dirname):
        self.dirname = dirname
 
    def __iter__(self):
        for fname in os.listdir(self.dirname):
            for line in open(os.path.join(self.dirname, fname)):
                yield line.split()
 
sentences = MySentences('/some/directory') # a memory-friendly iterator
model = gensim.models.Word2Vec(sentences)

如果希望对文件中的内容进行预处理,举例来说,转换编码,大小写转换,去除数字等操作,均可以在 MySentences 迭代器中完成,完全独立于 Word2vec。Word2vec 只负责接收 yield 的输入。

针对高级用户:调用 Word2Vec(sentences, iter=1) 会调用句子迭代器运行两次(一般来说,会运行 iter+1 次,默认情况下 iter=5)。第一次运行负责收集单词和它们的出现频率,从而构造一个内部字典树。第二次以及以后的运行负责训练神经模型。这两次运行(iter+1)也可以被手动初始化,如果输入流是无法重复利用的,也可以用下面的方式对其进行初始化。

model = gensim.models.Word2Vec(iter=1)  # an empty model, no training yet
model.build_vocab(some_sentences)  # can be a non-repeatable, 1-pass generator
model.train(other_sentences)  # can be a non-repeatable, 1-pass generator

如果对 Python 中迭代器,可迭代的,生成器这些概念不是很理解,可以参考下文。
Python关键字yield的解释

训练

Word2vec 有多个影响训练速度和质量的参数。

其中之一是用来修剪内部字典树的。在一个数以亿计的预料中出现一到两次的单词非常有可能是噪音或不需要被关注的。另外,也没有足够的数据对他们进行有意义的训练。因此,最好的办法就是直接将他们忽略掉。
model = Word2Vec(sentences, min_count=10) # default value is 5
对于设定 min_count 的值,合理的范围是0 - 100,可以根据数据集的规模进行调整。

另一个参数是神经网络 NN 层单元数,它也对应了训练算法的自由程度。
model = Word2Vec(sentences, size=200) # default value is 100
更大的 size 值需要更多的训练数据,但也同时可以得到更准确的模型。合理的取值范围是几十到几百。

最后一个主要参数是训练并行粒度,用来加速训练。
model = Word2Vec(sentences, workers=4) # default = 1 worker = no parallelization
该参数只有在机器已安装 Cython 情况下才会起到作用。如没有 Cython,则只能单核运行。

完整参数列表

内存

在内部,Word2vec 模型的参数以矩阵形式存储(NumPy 数组),数组的大小为 #vocabulary 乘以 #size 的浮点数 (4 bytes)。

三个如上的矩阵被存储在内存中(将其简化为两个或一个的工作进行中)。如果输入中存在 100,000 个互异的词,神经网络规模 size 设为200,则该模型大致需要内存
100,000 * 200 * 3 * 4 bytes = ~229MB

除此之外,还需要一些额外的空间存储字典树,但除非输入内容极端长,内存主要仍被上文所提到的矩阵所占用。

评估

Word2vec 训练是一个非监督任务,很难客观地评估结果。评估要依赖于后续的实际应用场景。Google 公布了一个包含 20,000 语法语义的测试样例,形式为 “A is to B as C is to D”。

需要注意的是,如在此测试样例上展示良好性能并不意味着在其它应用场景依然有效,反之亦然

存储和载入模型

使用 Gensim 的方法进行存储和载入模型

model.save('/tmp/mymodel')
new_model = gensim.models.Word2Vec.load('/tmp/mymodel')

该方法将模型内部的 NumPy 矩阵从硬盘载入到虚拟内存。另外,可以使用如下的方法载入原生 C 工具生成的模型,文本和二进制形式的均可。

model = Word2Vec.load_word2vec_format('/tmp/vectors.txt', binary=False)
# using gzipped/bz2 input works too, no need to unzip:
model = Word2Vec.load_word2vec_format('/tmp/vectors.bin.gz', binary=True)

在线训练和恢复训练

高级用户可以载入模型后用更多的预料对其进行训练,你可能要对参数 total_words 进行调整,取决于希望达到的学习率。

model = gensim.models.Word2Vec.load('/tmp/mymodel')
model.train(more_sentences)

从原生 C 工具生成的模型载入后无法继续进行训练,仍然可以对该模型进行查询和相关度计算操作,但由于字典树的丢失,无法继续进行训练。

使用模型

Word2vec 支持以下多种词语相似度任务:

model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
[('queen', 0.50882536)]
model.doesnt_match("breakfast cereal dinner lunch";.split())
'cereal'
model.similarity('woman', 'man')
0.73723527

可以用如下方法查询词向量:

model['computer']  # raw NumPy vector of a word
array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

如需要全体的词向量,可以调用 model.syn0 返回一个 2D 的 NumPy 矩阵。

参考文献

Word2vec Tutorial

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • 模型创建 Gensim中 Word2Vec 模型的期望输入是进过分词的句子列表,即是某个二维数组。这里我们暂时使用...
    chaaffff阅读 2,102评论 0 5
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,805评论 2 64
  • 1.NLP当前热点方向 词法/句法分析 词嵌入(word embedding) 命名实体识别(Name Entit...
    __Aragorn阅读 5,960评论 1 9
  • 前言 本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何...
    b19707134332阅读 4,811评论 0 18
  • 对着地上影子微笑 把微笑当成回忆的往事 在往事里寻找着安慰 呵 身边悄然离去的种子 那消逝的树木啊 载着破碎的梦想...
    Josan乔阅读 163评论 0 3