在自然语言处理(NLP)领域,如何对文本这种非结构化的数据进行表示是 NLP 的一个重要研究方向。
One-Hot
One-Hot Encoding
在说文本 One-Hot Encoding 之前,先来说一说机器学习中的 One-Hot Encoding,两者还是有一点点区别的。
One-Hot编码,又称独热编码、一位有效编码。其方法是使用 N 位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图:
上图中我们已经对每个特征进行了普通的数字编码:我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。那么one-hot编码是怎么搞的呢?我们再拿feature_2来说明:
这里feature_2 有4种取值(状态),我们就用4个状态位来表示这个特征,one-hot编码就是保证每个样本中的单个特征只有 1 位处于状态 1,其他的都是 0。
对于2种状态、三种状态、甚至更多状态都是这样表示,所以我们可以得到这些样本特征的新表示:
one-hot编码将每个状态位都看成一个特征。对于前两个样本我们可以得到它的特征向量分别为
NLP 中的 One-Hot Encoding
在 NLP 中,在特征提取上属于词袋模型(bag of words)。下面通过一个例子进行解释:
假设我们的语料库中有三段话:
我爱中国
爸爸妈妈爱我
爸爸妈妈爱中国
我们首先对预料库分离并获取其中所有的词,然后对每个此进行编号:
1 我; 2 爱; 3 爸爸; 4 妈妈;5 中国
然后使用one hot对每段话提取特征向量:
因此我们得到了最终的特征向量为
我爱中国 -> 1,1,0,0,1
爸爸妈妈爱我 -> 1,1,1,1,0
爸爸妈妈爱中国 -> 0,1,1,1,1
优缺点分析
优点:一是解决了分类器不好处理离散数据的问题,二是在一定程度上也起到了扩充特征的作用(上面样本特征数从3扩展到了9)
缺点:
首先,它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的);
其次,它假设词与词相互独立(在大多数情况下,词与词是相互影响的);
最后,它得到的特征是离散稀疏的。
Word2Vec
Word2Vec 来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》,它的核心思想是通过词的上下文得到词的向量化表示,有两种方法:CBOW(通过上下文的词预测中心词)、Skip-gram(通过中心词预测上下文的词):
CBOW :
通过目标词的上下文的词预测目标词,图中就是取大小为2的窗口,通过目标词前后两个词预测目标词。具体的做法是,设定词向量的维度d,对所有的词随机初始化为一个d维的向量,然后要对上下文所有的词向量编码得到一个隐藏层的向量,通过这个隐藏层的向量预测目标词,CBOW中的做法是简单的相加,然后做一个softmax的分类,例如词汇表中一个有V个不同的词,就是隐藏层d维的向量乘以一个W矩阵( )转化为一个V维的向量,然后做一个 softmax 的分类。
由于 V 词汇的数量一般是很大的,每次训练都要更新整个W矩阵计算量会很大,同时这是一个样本不均衡的问题,不同的词的出现次数会有很大的差异,所以论文中采用了两种不同的优化方法 「层次Softmax」和「负采样」。
Skip-gram :
跟CBOW的原理相似,它的输入是目标词,先是将目标词映射为一个隐藏层向量,根据这个向量预测目标词上下文两个词,因为词汇表大和样本不均衡,同样也会采用多层softmax或负采样优化。
层次 Softmax:
由于单词出现的频率是不一样的,所以用哈夫曼编码构建一个二叉树,出现频率高的词放在前面可以减少计算量,用哈夫曼编码记录路径,例如图中单词2(w2w 2
,规定左边走是1,右边走是0)的哈夫曼编码就是1110,在路径上每到一个节点就是一个sigmoid的二分类,所以叫多层softmax。具体来说每个节点处会有一个d维的向量参数θ
θ,每个单词也是d维的向量xwx w,一个sigmoid的方程决定向左或者右走的概率,往左走的概率是:
负采样也是把模型变为二元的逻辑回归,每个词对应一个词向量xwx w和词的网络参数θw
θ w,每个词附近有2c个词,通过负采样,随机采样neg个反例,让正例词对目标词的词向量和窗口内词的网络参数的乘积尽可能的大,反例的尽可能小,是模型的训练目标。例如在skip-gram中目标词A的词向量是xAx A ,它2c的窗口内附近一个词的网络参数是θB
θ B ,让这两个的乘积尽可能的大,σ(xTAθB)σ(x AT θ B)尽可能大,反例,随机采样出来的词乘积尽可能小。同理CBOW中是将2c个词相加求平均,然后与目标词的网络参数相乘,也是让窗口内真实存在的词乘积尽可能大,随机采样出的词尽可能小。
负采样的方式是根据词出现的频率进行采样,出现频率越高,越可能被采样到,原文中是根据出现频率的 3/4次方然后做一个归一化作为概率进行采样。
另外这篇论文的作者在2016年开源了一个文本分类的工具,FastText,与word2vec的原理非常类似,只不过在做文本分类时是一个有监督的分类预测文本的label。另外加入n-gram的特征,对于英文,每个单词前后加入标识,例如#good#,如果是3-gram的特征就是加入#go,goo,ood,od#,可以解决一些oov的问题(不在训练集中出现的生词)和引入一些词根的特征。对于中文“你爱我”和“我爱你”有完全不同的语义,用CNN或者highway网络处理的char embedding可以引入这部分的特征。
[1] https://www.cnblogs.com/lianyingteng/p/7755545.html
版权声明:本文为CSDN博主「xiayto」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xiayto/article/details/84730009