文本表示: 从 One-Hot 到 Word2Vec

在自然语言处理(NLP)领域,如何对文本这种非结构化的数据进行表示是 NLP 的一个重要研究方向。

One-Hot

One-Hot Encoding

在说文本 One-Hot Encoding 之前,先来说一说机器学习中的 One-Hot Encoding,两者还是有一点点区别的。

One-Hot编码,又称独热编码、一位有效编码。其方法是使用 N 位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图:

上图中我们已经对每个特征进行了普通的数字编码:我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。那么one-hot编码是怎么搞的呢?我们再拿feature_2来说明:

这里feature_2 有4种取值(状态),我们就用4个状态位来表示这个特征,one-hot编码就是保证每个样本中的单个特征只有 1 位处于状态 1,其他的都是 0。

对于2种状态、三种状态、甚至更多状态都是这样表示,所以我们可以得到这些样本特征的新表示:

one-hot编码将每个状态位都看成一个特征。对于前两个样本我们可以得到它的特征向量分别为

NLP 中的 One-Hot Encoding

在 NLP 中,在特征提取上属于词袋模型(bag of words)。下面通过一个例子进行解释:
假设我们的语料库中有三段话:

我爱中国
爸爸妈妈爱我
爸爸妈妈爱中国

我们首先对预料库分离并获取其中所有的词,然后对每个此进行编号:

1 我; 2 爱; 3 爸爸; 4 妈妈;5 中国

然后使用one hot对每段话提取特征向量:

因此我们得到了最终的特征向量为

我爱中国  ->   1,1,0,0,1

爸爸妈妈爱我  ->  1,1,1,1,0

爸爸妈妈爱中国  ->  0,1,1,1,1

优缺点分析

优点:一是解决了分类器不好处理离散数据的问题,二是在一定程度上也起到了扩充特征的作用(上面样本特征数从3扩展到了9)

缺点:
首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的);
其次,它假设词与词相互独立(在大多数情况下,词与词是相互影响的);

最后,它得到的特征是离散稀疏的。

Word2Vec

Word2Vec 来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》,它的核心思想是通过词的上下文得到词的向量化表示,有两种方法:CBOW(通过上下文的词预测中心词)、Skip-gram(通过中心词预测上下文的词):

CBOW :
通过目标词的上下文的词预测目标词,图中就是取大小为2的窗口,通过目标词前后两个词预测目标词。具体的做法是,设定词向量的维度d,对所有的词随机初始化为一个d维的向量,然后要对上下文所有的词向量编码得到一个隐藏层的向量,通过这个隐藏层的向量预测目标词,CBOW中的做法是简单的相加,然后做一个softmax的分类,例如词汇表中一个有V个不同的词,就是隐藏层d维的向量乘以一个W矩阵(Rd×VR d×V )转化为一个V维的向量,然后做一个 softmax 的分类。

由于 V 词汇的数量一般是很大的,每次训练都要更新整个W矩阵计算量会很大,同时这是一个样本不均衡的问题,不同的词的出现次数会有很大的差异,所以论文中采用了两种不同的优化方法 「层次Softmax」和「负采样」。

Skip-gram :
跟CBOW的原理相似,它的输入是目标词,先是将目标词映射为一个隐藏层向量,根据这个向量预测目标词上下文两个词,因为词汇表大和样本不均衡,同样也会采用多层softmax或负采样优化。

层次 Softmax:

由于单词出现的频率是不一样的,所以用哈夫曼编码构建一个二叉树,出现频率高的词放在前面可以减少计算量,用哈夫曼编码记录路径,例如图中单词2(w2w 2​
,规定左边走是1,右边走是0)的哈夫曼编码就是1110,在路径上每到一个节点就是一个sigmoid的二分类,所以叫多层softmax。具体来说每个节点处会有一个d维的向量参数θ
θ,每个单词也是d维的向量xwx w,一个sigmoid的方程决定向左或者右走的概率,往左走的概率是:

负采样也是把模型变为二元的逻辑回归,每个词对应一个词向量xwx w和词的网络参数θw
θ w​,每个词附近有2c个词,通过负采样,随机采样neg个反例,让正例词对目标词的词向量和窗口内词的网络参数的乘积尽可能的大,反例的尽可能小,是模型的训练目标。例如在skip-gram中目标词A的词向量是xAx A​ ,它2c的窗口内附近一个词的网络参数是θB
θ B ,让这两个的乘积尽可能的大,σ(xTAθB)σ(x AT θ B)尽可能大,反例,随机采样出来的词乘积尽可能小。同理CBOW中是将2c个词相加求平均,然后与目标词的网络参数相乘,也是让窗口内真实存在的词乘积尽可能大,随机采样出的词尽可能小。
负采样的方式是根据词出现的频率进行采样,出现频率越高,越可能被采样到,原文中是根据出现频率的 3/4次方然后做一个归一化作为概率进行采样。

另外这篇论文的作者在2016年开源了一个文本分类的工具,FastText,与word2vec的原理非常类似,只不过在做文本分类时是一个有监督的分类预测文本的label。另外加入n-gram的特征,对于英文,每个单词前后加入标识,例如#good#,如果是3-gram的特征就是加入#go,goo,ood,od#,可以解决一些oov的问题(不在训练集中出现的生词)和引入一些词根的特征。对于中文“你爱我”和“我爱你”有完全不同的语义,用CNN或者highway网络处理的char embedding可以引入这部分的特征。


[1] https://www.cnblogs.com/lianyingteng/p/7755545.html
版权声明:本文为CSDN博主「xiayto」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xiayto/article/details/84730009

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容