2018· ACL · Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features
想法来源:无监督的学习方法的两个方法入手:鲁棒性、简单有效。相当于CBOW的改版,但是是用在sentence的表示上。
价值:
方法:改进了CBOW在大数据集上的表现,去掉了高频词的影响。
缺点:
详细方案:
-
首先,句子的最终表示:
其中R(S)是S中所有的n-gram表示,当然n也可以取1。|R(S)|表示n-gram的数量
- 其次,下采样方法
是词w的频率规范化后的 -
正采样方法
以上两种采样方法,可以减小高频词影响。
- 去除高频词的影响
其中的表示:
数据集:
训练
- Toronto book corpus
- Wikipedia sentences
- tweets
测试
movie review sentiment (MR)
product reviews (CR)
subjectivity classification (SUBJ)
opinion polarity (MPQA)
question type classification (TREC)
实验:
-
首先看看在下游任务的表现
-
无监督任务的表现:Pearson/Spearman
-
对比最好的结果所需要的训练时间