在NLP任务中,我们将自然语言交给机器学习算法来处理,但机器无法直接理解人类的语言,因此首先的任务就是将语言数学化,如何对自然语言进行数学化呢?词向量提供了一种很好的形式。这里我们介绍两种简单的词向量
1、one-hot representation
一种最简单的词向量就是one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为辞典D的大小N,向量的分量只有一个1,其他全部是0,1的位置对应盖茨在辞典中的索引,但这种词向量有一些缺点,容易受到维数灾难的困扰,同时,他不能很好的刻画词与词之间的相关性。
2、Distributed representation
另一种词向量是Distributed representation,其基本思想是:通过训练某种语言的每一个词映射成一个固定长度的短向量,所有这些向量构成一个词向量空间,而每个向量视为这个空间中的一个点,那么,可以在这个空间中引入距离的概念,比如余弦距离,用以刻画词之间的相关性。