- 题目:Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
- 对文本进行无参数的简单建模就能在多个方面的多个任务上面取得很好的效果(相对于用CNN和RNN,效果差不多甚至更好)
1. 摘要
- 很多深度学习结构对文本建模需要大量的参数和复杂的计算
- 本文提出了几个简单的基于Word Embedding的模型(SWEM)
- 在17个数据集上与其他方法进行了比较,任务包括:
- 长文本分类
- 文本序列匹配
- 短文本任务,包括分类和打标签
2. 背景
- 现有的很多深度学习方法都是用CNN或者RNN对文本建模,这样需要加入大量的参数和复杂的计算
3. 方法
- 提出了几种基于max-pooling的方法
- 已有的有一个取平均的方法,这种方法每个单词对整个文本表示的贡献是一样的
3.1 max-pooling
- 直接对Word Embedding的每一维取max,得到整个文本的表示
- 这种方法每一维只取对整个文本表示的贡献最大的单词
3.2 concat
- 把取平均得到的表示和取max pooling得到的表示拼接起来
- 这样结合了两种方法的优点
3.3 Hierarchical Pooling
- 先对整个文本做一个滑动平均
- 然后取max pooling
4. 实验和结果
- Word Embedding使用了预训练的词向量,不在词典里面的词随机初始化
- 对词向量使用分两种,一种初始化之后直接训练词向量本身,另一种初始化之后词向量本身不训练,但是在之后接了可训练的MLP
- 最后接MLP得到最终任务需要的输出
- 在各个数据集上取得的效果大多比其他方法都好
5. 结论
- 在17个数据集上比较了SWEM模型和基于CNN或LSTM的模型对文本表示建模
- 发现简单的pooling操作的效果惊人的好
- 情感分析任务对词序更敏感一些
- 在大多数的NLP任务上,简单pooling操作的效果比CNN或LSTM都差不多或者甚至要更好
- 在max pooling模型上,词向量的每个维度包含有可解释的语义类型