2018 · NAACL · BP · Deep Contextualized Word Representations
问题:以往的词向量表示的语义信息并不丰富,没有挖掘到深层的语义和语法信息。
价值:通过丰富词向量表示,在downstream中提升各种表现性能
方法:非常简单的想法,利用多层的RNN表示网络,表示出深层的上下文依赖的词向量,之前是只使用embedding,这次直接把RNN一起搬过来了。
缺点:参数太多,计算量很大。
详细方案:
- 有监督的downstream NLP task
表示正向第j层rnn/cnn的第k个单词表示, 是经过char rnn/char cnn的word embedding。然后经过整合降维:
其中
-
对于无监督学习
使用了CNN-BIG-LSTM结构,和一个层之间的残差链接,利用语言模型进行预训练模型。然后downstream接在后面可以finetune
trick : 模型最后加入了一个正则项,防止s变大
数据集:
1. SQUAD
2. Stanford Natural Language Inference (SNLI) corpus
3. Reuters RCV1 corpus (NER)
4. Stanford Sentiment Tree- bank (SST-5)
实验
首先是证明ELMo的有效性,在分类,推理,SQUAD上产生的结果提升
模型内部对比,集中接入方式和的取值对结果的影响
不清楚有什么用
看了一个邻近词结果显示,理解的层次更深了。
后面两个实验,意义不大