1.Convolutional Neural Network for Sentence Classification
G:\paper\1408.5882
Model
static:word vector固定不变
non static:word vector当做是可优化的参数
pooling:消除句子之间长度不同的差异
dropout:y = w · (z ◦ r) + b
Dataset
Result
CNN-rand: 所有的word vector都是随机初始化的,同时当做训练过程中优化的参数
CNN-static: 所有的word vector直接使用无监督学习即Google的Word2Vector工具(COW模型)得到的结果,并且是固定不变的
CNN-non-static: 所有的word vector直接使用无监督学习即Google的Word2Vector工具(COW模型)得到的结果,但是会在训练过程中被Fine tuned
CNN-multichannel: CNN-static和CNN-non-static的混合版本,即两种类型的输入
Conclusion
CNN-static较与CNN-rand好,说明pre-training的word vector确实有较大的提升作用
CNN-non-static较于CNN-static大部分要好,说明适当的Fine tune是有利的,使得vectors更加贴近于具体的任务
CNN-multichannel较于CNN-single在小规模的数据集上有更好的表现,实际上CNN-multichannel体现了一种折中思想,即既不希望Fine tuned的vector距离原始值太远,但同时保留其一定的变化空间
原始的word2vector训练结果中,bad对应的最相近词为good
在non-static的版本中,bad对应的最相近词为terrible,因为在Fune tune的过程中,vector的值发生改变从而更加贴切数据集
2.Effective Use of Word Order for Text Categorization with Convolutional Neural Networks
G:\paper\1412.1058
seq-CNN
bow-CNN