前言:深度学习网络rnn能解决有序的问题,我们就生活在这样一个有序的世界。比如时间,音乐,说话的句子,甚至一场比赛,比如最近正在举办的俄罗斯世界杯。
one hot编码
我们在做分类任务的时候经常用到one hot编码,如果把自然语言中每个词当做一个类别,维度就会非常大,但能解决了最基本的问题——能分开词了。如下图:
一共能产生14901维。
问题:占用太大空间,词和词之间的相识度无法体现。也就是所说的稀疏化。
one hot代码如下:
from sklearn.preprocessing import OneHotEncoder
# lables = ['ni','号','ni','meimei']
lables = [0,1,0,4]
lables = np.array(lables).reshape(len(lables),-1)
enc = OneHotEncoder()
enc.fit(lables)
target = enc.transform(lables).toarray()
print(target)
输出结果如下:
词向量编码思想
我们需要把上面的编码转化为这样的编码:
能很好地解决上面的问题。基于以上思想,生出很多方法,主要有两种假说。
- 假说一:The distributional hypothesis 分布式假说
一个词由周围词来推断。相似的词会出现在相似的语境里。例如今晚的天空有很多星星。句子中天空和星星相关,横向共现。这样,我们可以由词跟语境的关系来判断相似度,天空和星星就是相似的。BOW, LSI, LDA等模型都是由这种假说出发的,产生的很多种方法来计算这个实值向量。1954年BOW模型不考虑语序,出现一次加1。2003年LDA模型,是主题模型中的某一个特例。PMI/PPMI等方法都研究共现,相关词共同出现几次,然后再做SVD矩阵分解等。
- 假说二:Distributed models
相似词在相似语境contex下。例如今天天空有很多星星。今天天空有个太阳。这两个句子中的星星和太阳这两个词出现在了同样的上下文之中,它们是相似的,但它们是一种纵向的相似性。基于这种假说诞生的方法,最重要的就是这个Word2Vec。
当然,我们要讲解的重点是Word2Vec。事实上,Word2Vec是由神经网络语言模型得到的一个副产物
Word2Vec
Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具,是CBOW和Skip-Gram这两个模型的合体,目前这套工具完全开源。
CBOW是利用词的上下文预测当前的单词;而Skip-Gram则是利用当前词来预测上下文。
Embedding
Word2Vec中从输入到隐层的过程就是Embedding的过程。
Embedding的过程就是把多维的onehot进行降维的过程,是个深度学习的过程。满足:
- 嵌入层向量长度可设置
- 映射过程是全连接
- 嵌入层的值可训练
- 由高维度映射到低纬度,减少参数量
Skip-gram的原理
在embedding的基础上再加上一个输出层就是Skip-gram的过程了。根据某个词,然后分别计算它前后出现某几个词的各个概率。
如果有这样一个词序列 (你真漂亮)那么就会有四个1-hot 编码的输入向量: 1000, 0100,0010,0001。这就是可能的CBow模型的输入,假设我们当前的输入是0100,也就是“真”这个字。
再来看输出,假如我们希望预测“真”这个词的上下文,,比如说取前后各一个。
那么就会有两个output,刚才说了每个output是一个概率Vector, 假设这两个output Vector是(0.3, 0.5, 0.7,), (0.1,0.9,0.1)。第一个(0.3,0.5,0.7)中的数字表示的就是“你”出现在“真”之前一位的概率是0.3, “真”出现在“真”之前一位的概率是0.5, “漂亮”出现在“真”前一位的概率是0.7。同样,后一个向量(0.1,0.9,0.1)则表示“你”出现在“真”之后的概率是0.1,“真”出现在“真”之后的概率是0.1,……。
这样的话,只要我们给定了一个词,整个CBow网络就可以得到这个词上下文中各个词出现的概率,我们用蒙特卡洛模拟的方法根据哪些概率值去采样,就能得到一个具体的上下文。
然后就是优化了,使得输入的词之间“真漂亮”之间的概率足够大。
写出目标函数:
T是语料库单词的总个数,p(wt+j|wt)是已知当前词wt,预测周围词的总概率对数值。