CNN能够提取输入项目的特征,但是它不会去管这些特征在哪里
LSTM是RNN的变体,能够处理序列化的输入,该网络的内部机制能够选择性的记忆或者遗忘输入的信息,最后得到输入信息在不同环境下的表示。长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。具体内部机制详见大佬链接[https://zhuanlan.zhihu.com/p/32085405]
情感分析:
第一个尝试的模型是CNN-LSTM 模型,我们的CNN-LSTM 模型结合由初始的卷积层组成,这将接收word embedding(对文档中每个不同的单词都得到一个对应的向量)作为输入。然后将其输出汇集到一个较小的尺寸,然后输入到LSTM层。隐藏在这个模型后面的直觉是卷积层将提取局部特征,然后LSTM层将能够使用所述特征的排序来了解输入的文本排序。实际上,这个模型并不像我们提出的其他LSTM-CNN模型那么强大。
我们的LSTM-CNN 模型由一个初始LSTM层构成,它将接收 tweet中每一个令牌的word embedding作为输入。直觉是它输出的令牌不仅仅存储初始令牌的信息,而且还存储任何先前的令牌。换句话说,LSTM层正在为原始输入生成一个新的编码。然后将LSTM层的输出紧接着输入到我们期望可以提取局部特征卷积层中。最后卷积层的输出将被汇集到一个较小的纬度,最终输出为正或负标签。