2017 · Arxiv · Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning ·
想法来源:使用预训练自己定义的任务模型来提升最后的表现
价值:提出了一种新的解决思路,证明了这三个任务对NLP的重要性。
方法:使用了作者定义的三个NLP任务预训练encoder模型,然后应用在downstream下。
缺点:不能复现
详细方案:
-
定义三个任务
- Binary Ordering of Sentence:确定两个句子间顺序
- Next Sentence:从候选集里面预测下一个句子
- Conjunction Prediction:预测连接词,作者把两个句子之间的连接词删除,然后作为数据集预测。
-
模型结构,其中sentence encoder在实验中使用了三种encoder
三个预训练任务分别是Task1~3。
可以看到作者在训练sentence encoder时,可以针对每个Task单独训练,也可以3个Task联合训练。
作者所使用的sentence encoder共有3个,分别是:- 1024D sum-of-word(CBOW);
- 1024D GRU recurrent neural network (Cho et al., 2014);
- 512D bidirectional GRU RNN (BiGRU).
sentence encoder的输出会成为后续的bilinear classifiers的输入,最后输出分类结果。
数据集:
BookCorpus
the Gutenberg project
Wikipedia
实验:
-
三个任务联合训练以及单独训练的性能比较
-
nearest sentence
-
训练时间和下游任务