EMNLP · 2017 · Mimicking Word Embeddings using Subword RNNs ·
想法来源:subword
价值:利用了subword信息的表示,在多个任务上表现优秀。主要是拿来解决OOV问题的
方法:把char建模跟word相似性做损失
缺点:char缺失上下文信息
详细方案:
与pre-train的word embedding做欧氏距离损失。
直接用这个embedding 做OOV的表示,而不是用word embedding和char做concat
数据集:
Polyglot word embeddings-pre-trained
UD dataset (ver- sion 1.4) yields 44 languages
实验: