Word2vec原理

    本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    看了许多网上word2vec的博客,感觉有点乱一大堆公式(可能我太菜了 0_0),花了两天自己整理了一下,方便复习。计算机无法直接理解人类的语言,为了处理自然语言方面的问题,我们需要将文字转换成为机器能计算的数据。如何将文本语言数字化呢?即词向量。转词向量前,需要做一些处理,如去停用词,分词等。

       常见的文本向量化有One hot representationDistributed representation

        One hot representation(独热编码)比较简单,词向量维度是字典库的大小,每个词对应位置为1,其他位置为0。如下图所示。但是存在一些问题

        (1)可能向量维度太高。如果词典数量非常多,那每个词向量的维度爆炸,而且稀疏。

        (2)不容易度量词向量之间相似性。每个词相对独立,不能表达词之间的相关性。

独热编码

        Distributed representation一定程度克服了独热编码词向量的问题,基本思想是:通过模型训练,将每个词映射为另外一个较短的词向量。它克服了独热编码的0-1稀疏性、词向量维度更小,而且经过与周边词的训练,能够较好表达词向量之间的相似性。如下图

        上图词典表中有"Royalty","Masculinity", "Femininity"和"Age"4个来表示,King对应的词向量可能是(0.99,0.99,0.05,0.7),这样就可以表示它们之间的关系了。虽然有了基本思想,但是要这么训练得到这些向量呢?接下来需要引入word2vec的两种重要基础模型CBOW模型和Skip-gram模型,两种改进训练Hierarchical Softmax和Negative Sampling。改进训练单独介绍。


一、CBOW模型

        连续词袋模型(Continuous Bag-of-Words Model,CBOW)思想是:通过中心词周边一定范围窗口内的词来预测中心词。如下图,利用learning中心词的上下文窗口为4,共八个词的One hot编码,去训练权重网络参数W,使得输出Learning的概率最大。

        具体步骤,如图:

            (1)输入层:上下文C个单词的One hot(V表示词典空间大小)。

            (2)乘以权重矩阵W_{V\times N}(N表示隐藏层神经元个数),得到隐藏层

            (3)乘以输出层权重矩阵W_{V\times N}^‘

            (4)softmax输出每个词的预测概率,使中心词概率最大,误差越小越好。

        损失函数一般为交叉熵损失函数,梯度下降更新W和W'。现在训练完毕这么得到我们需要的词向量呢?其实权重参数W就是降维的词向量矩阵,每个单词与其相乘即可获得词向量。如下图,某词One hot乘以权重矩阵W得到词向量。

二、Skip-gram模型

        与 CBOW 对应,Skip-gram 的模型基本思想和 CBOW 非常类似,只是换了一个方向,不做过大赘述。输入为中心词,softmax输出周边4个词的概率,取前八个概率词。同样地,训练完成后,通过权重矩阵W获得词向量。

    这是一个基本模型,但是Word2vec一般不适用这种方式。因为一般词典表中词的数量非常多,百万级别,输出百万个词的概率,计算量非常大。所以有了后面改进训练Hierarchical Softmax和Negative Sampling

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容

  • 最近新接触文本分类问题,对于我来数第一个问题就是Word Embedding这个词到底是什么意思,因此也就开始学习...
    小松qxs阅读 24,824评论 2 27
  • 一、如何表示一个词语的意思 在计算机中如何表示一个词的意思 过去几个世纪里一直用的是分类词典。计算语言学中常见的方...
    DataArk阅读 3,821评论 0 8
  • BERT发展史(三)全方位多角度理解Word2Vec 建议先阅读之前两篇文章: BERT发展史(一)从词嵌入讲起 ...
    LITD阅读 3,398评论 0 13
  • 虎妈,本名蔡美儿,为两个女儿制定十大戒律,自称“采用咒骂、威胁、贿赂、利诱等种种高压手段,要求孩子沿着父母为其选择...
    如一书阅读 1,149评论 0 2
  • 红楼女子 梦红楼 个个才学 胜英雄 闲来无事 赏吟诗 绝色才情 惹人妒 千古佳作...
    ff07e00d392e阅读 134评论 0 2