Sebastian Ruder 大神又出新啦,是对今年EMNLP大会的500篇论文的总结和分析,搬运搬运。原博客在这里。该文将大会的论文分成了下面7个大类,我也将会一一搬运。
- Inductive bias
- Cross-lingual learning
- Word embeddings
- Latent variable models
- Language models
- Datasets
- Miscellaneous
1 Inductive Bias(学习偏倚)
学习偏倚指的是我们的模型包含的基本假设,具有这样基本假设的模型才具有泛化能力(区别于直接纯背数据的模型,什么假设都不用,但是泛化能力是0)。最典型的学习偏倚就是图像的旋转不变性(Translation Invariance),所谓不变性指的是在经历变换之后仍然能够被识别出来还是原来那个东西(还是原来的类别)。而捕获这种不变性最好的模型结构就是Yann Lecunn在1989年提出的卷积神经网络啦,这个大家都太熟啦。
说这么多,想说明一个道理:现在很多论文在研究的问题都是在增加学习偏倚,设计相应的模型。而现在一个很重要的研究方向就是探究自然语言中有没有像图像这样的不变性?
Lesson 1: If there is symmetry in the input space, exploit it.
除此之外,作者还提醒我们重构损失这一通用的学习偏倚是具有非常大的价值的,能够为我们的训练提供额外的信号,在很多论文中都得到了广泛的应用。
Lesson 2: When you know the generative process, you should exploit it.
下面重点介绍几篇这个方向上发表在EMNLP-2018的论文:
在自然语言处理上想要获取具有不变性的表示(Representation With Invariance)最常见的做法是生成对抗样本(Adversarial Example)。在这个方向上,Alzantot et al.利用一个黑盒优化算法生成语法和语义上的对抗样本。具体来说,这篇论文利用组合优化策略和语言模型生成能够最大程度上违背自然语言推理的样本。
另外一个重要的学习偏倚就是正则化啦(Regularization)。Barrett et al.创造性的提出了利用人类的注意力的特点对神经网络的注意力机制做相应的正则化处理。论文中提到的人的注意力的数据是一个记录人的眼球关注点的数据集,这个数据集最好的一点在于:它是和自然语言处理的任何数据集都是相互独立的,可以作为一个额外的知识加入到训练中。
关于序列对齐的学习偏倚。许多自然语言处理的任务,例如entailment 和semantic similarity都需要文本的对齐(其实就是找到对应的句子 ,什么对齐),但是我们现在的对齐一般都是基于单词级别的,或者句子级别的,Liu et al.提出利用结构化的对齐嵌入一个结构化的偏倚(structural bias),简单说就是直接比较候选序列的各个span。
-树状结构偏倚。树状结构偏倚是这么多年nlp社区里一直非常关注的热点方向,因为从我们直观的感受来讲,自然语言就是具有树结构的。因此这个问题也一直让大神Chris Manning 念念不忘。 Shi et al.在今年的论文中逆行,发现树结构是有价值的,但是好像和我们的语法是没有关系的。有此一说是因为,我们之前一直认为树桩结构在某些时候表现不错正是因为它能够很好的捕捉到语法信息。现在好啦,这篇论文里发现甭管啥破树都有价值,简单的破树反而比我们费劲整出来的语法树的效果还要好。而且他们还证明了树状结构的重要性,论文中指出利用他们家的树桩结构能够哦发现我们认为的关键词恰恰对最终的结果有着最大贡献,这个恰恰弥补了我们的RNN的就近性(recency bias)的缺点。多方面的情感分析的泛化学习偏倚。我们在解决多方面的情感分析问题时(就是对某个实物的不同方面进行评价,比如评价一个餐馆时,可以从位置啦,卫生条件啦,饭菜种类啦等等角度进行分析),常见的做法是针对每一个方面都计算出一个向量(representation),然后用这个向量分别去做分类。现在新的学习偏倚认为这些方面性的信息是语言的基本属性,是可以重复利用的,具体的利用方法就是把这些训练出来的向量直接当做是卷积神经网络的filter进入下一步的神经网络的训练。并且这种方法甚至是可以应用在其他的任务上。(思考:这里难道是找到了情感分析的预训练的方法?)
2. Cross-Lingual representation learning
讲道理哇,这个领域我是没想过居然有这么大的研究热度,不过想想也是挺合理的。世界上一共有大概6500种语言,而我们现在大部分的研究都集中在语料库比较丰富的几个语言,包括英语,中文啦,西班牙语啦,德语啦等等。但是我们需要知道,有很多小语种,别说正经的语料库啦,连正经的书面资料都需要人去整理。而cross lingual 这个方向就是希望能够通过建立语料库丰富的语言(比如英语)和语料库极度匮乏的语言之间的联系。具体怎么做呢,我们想象一下,其实不管什么语言都是在表达现实世界中的一个物体或者概念。换句话说,不同的语言其实是在描述同一种东西,只不过换了件花花皮囊而已。
作者从Asifa's的keynote进行分析,我们目前的研究方式大多集中在单词-单词的对应(和原始的依照词频破解密文有点像),到现在是完全没有考虑过复合短语的情况,可以说是还处于起步阶段吧。在这里我们同样会介绍一些论文。
- Kementchedjhieva et al.论文中指出把多语言的向量映射到第三方隐向量空间的效果要好于互相映射(就是英语的单词对应到小语种的单词)
- Doval et al. 同样在论文中指出要把多语言的向量求个平均值,然后在微调一下,可以看出这个思路和上一个很像啦,都是映射到了第三方的向量空间中。
- Chen and Cardie在论文中呢更是把多语言这个多字落实到了实处,真的是整了好多个语言,然后配对计算向量。
- Hartmann et al.分析了我们在ACL2018发表的论文,就是那篇从不同的word embeddings中选择合适的来使用的论文。发现没效果,他们指出由于不同的word embeddings就代表着不同的学习偏倚,那么频繁的更换底层的学习偏倚造成了后续的神经网络的优化和收敛的困难。并且他们把这个结论泛化到了多语言训练出来的向量中,发现不同的语言是有不同的学习偏倚的(语言的结构不一样)。论文中指出,无论什么样的语言,唯一的不变性其实就是相近单词的紧邻性,所以基于这个学习偏倚搞出来的词向量才具有可选择性和可移植性。
- 同样是为了解决这个问题,Hoshen and Wolf提出对词向量分布的二阶矩进行对其,再进行微调。(哈哈哈,并不知道这是什么操作)
- Xu et al. 提出通过优化源语言和目标语言单词分布的Sinkhorn的距离来获取多语言embeddings。
- Lample et al.作为本次会议的最佳论文之一,创造性的提出了无监督的基于短语的机器翻译模型,这个模型在语料库匮乏的语言上表现的非常非常好,比有监督的模型还要好。
- Artetxe et al. 的论文也是类似的思想,无监督、基于短语,不过为啥没也拿最佳呢??哈哈。扎心
3 Word embeddings
词向量!这个东西还有人在研究我是真的惊呆啦!!大神博客里也没有过多的介绍
大神很认真的指出,现在还是有人在很认真的搞词向量的,不过热度已经比前几年少多啦。
- Zhuang et al.提出了一个新的损失函数,然后并且提出使用二阶共现关系矩阵来学习。
- Zhao et al. 提出把单词看做是字母的组合,这样的话就能够很好的学习一些我们从来没有见过的单词的词向量啦(完全不考虑预警信息真的合适吗???还是说把语境词也拆成了字母的组合)
- Bosc and Vincent通过重构字典的解释来训练词向量
- Zhao et al.直接训练中性的(没有性别歧视的)词向量,而不是传统的先训练出来再去歧视。这种方法甚至还直接给性别分配了一个词向量的维度。
4.Latent Variable models隐变量模型
隐变量模型常常应用在主题识别上,之前很多时候用的都是MCMC的那套东西进行学习和推理,所以没太赶得上上深度学习的热度。不过这个东西确实是能够很好的表达结构化的学习偏倚的。
废话少说,直接上论文啦。
- Kim et al. 提供了一个超级棒的隐变量模型在深度学习上的应用的教程。在教程里,Graham Neubig 强调隐变量模型存在着巨大的价值,因为它能够捕获语言的结构化的特征。更具体的说,他以多元变分encoder-decoder和树状结构自动编码器为例,这两种半监督的模型都通过隐变量来利用无标签的数据。
- 在我(大神)的论文中,我们指出多语言的embeddings学习可以看作是隐变量的模型我们可以利用这种想法设计出一个使用EM算法的的模型,并且能够更好的完成单词的对齐任务。
- Dou et al. 同样也提出在做summary 任务的时候句子也可以看做是具有隐变量的,在该论文中有激活隐变量的句子直接被提取出来用来做推理。
- 还有 Xu and Durrett 提出在变分自编码器(Variational Auto-encoder )中使用一个和之前不同的分布,从而避免KL散度的失效问题。
- Niculae et al.提出动态的构建隐结构的方法。
5.Language model
语言模型我是再熟悉不过啦,简单讲就是充分利用单词和语境的关系的一类模型,现在也多指用语境去预测下一个词。
作者指出语言模型在自然语言处理中的作用越来越大,也有越来越多的论文中设计了各种各样的语言模型的结构。
- Peters et al.指出LSTM,CNN和自注意力的模型都学习到了高质量的表示(representation)。论文中还指出网络中不同深度的表示捕获了不同级别的语义信息。词义上的信息是捕获在word embeddings层的,局部语法是捕获在底层的,长距离语义是捕获在高层的。
- Tran et al. 的卢文中指出LSTM比自注意力机制能够更好的泛化层级结构。这篇论文指出了自注意力机制可能存在的局限性。
- Tang et al. 发现自注意力机制的抹稀泥和CNN在长距离的语义捕获上都没有想象中的比RNN要好。但是呢,注意力机制在词义消歧方面表现非常优异。
- 很多其他的论文也研究了语言模型的不同方面。Amrami and Goldberg指出语言模型能够在无监督的词义推理上取得非常好的效果。更重要的是,他们发现了一个神奇的现象,就是在左边语境和右边语境中增加一个"and"将会取得更好的效果。Krishna et al.卢文中指出ELMO在情感分析的数据上比使用逻辑规则的方法有着更好的表现。Giulianelli et al. 利用诊断分类器来对语言中数字进行预测。Wilcox et al.提出rnn的语言模型能够解决filler-gap dependencies的问题,并且学习到“孤岛限制条件”。
6. Datasets
这一部分介绍了新推出的数据集,不多介绍,就是列举一下。
- Grounded common sense inference: SWAG contains 113k multiple choice questions about a rich spectrum of grounded situations.
- Coreference resolution: PreCo contains 38k documents and 12.5M words, which are mostly from the vocabulary of English-speaking preschoolers.
- Document grounded dialogue: The dataset by Zhou et al. contains 4112 conversations with an average of 21.43 turns per conversation.
- Automatic story generation from videos: VideoStory contains 20k social media videos amounting to 396 hours of video with 123k sentences, temporally aligned to the video.
- Sequential open-domain question answering: QBLink contains 18k question sequences, with each sequence consisting of three naturally occurring human-authored questions.
- Multimodal reading comprehension: RecipeQA consists of 20k instructional recipes with multiple modalities such as titles, descriptions and aligned set of images and 36k automatically generated question-answer pairs.
- Word similarity: CARD-660 consists of 660 manually selected rare words with manually selected paired words and expert annotations.
- Cloze style question answering: CLOTH consists of 7,131 passages and 99,433 questions used in middle-school and high-school language exams.
- Multi-hop question answering: HotpotQA contains 113k Wikipedia-based question-answer pairs.
- Open book question answering: OpenBookQA consists of 6,000 questions and 1,326 elementary level science facts.
- Semantic parsing and text-to-SQL: Spider contains 10,181 questions and 5,693 unique complex SQL queries on 200 databases with multiple tables covering 138 different domains.
- Few-shot relation classification: FewRel consists of 70k sentences on 100 relations derived from Wikipedia.
- Natural language inference: MedNLI consists of 14k sentence pairs in the clinical domain.
- Multilingual natural language inference: XNLI extends the MultiNLI dataset to 15 languages.
- Task-oriented dialogue modeling: MultiWOZ, which won the best resource paper award, is a Wizard-of-Oz style dataset consisting of 10k human-human written conversations spanning over multiple domains and topics.
既然这里提到数据集了,那么就提一下有些论文还研究了当前的一些数据集和评价标准的局限性:
- Text simplification: Sulem et al.指出BLEU得分在分割句子方面并不能算比较好的评价标准,而分割句子又是非常非常常见的操作。
- Text-to-SQL: Yavuz et al. 指出他在WikiSQL的数据集上已经达到了100%的准确率,这个数据集已经凉啦。
- Reading comprehension: Kaushik and Lipton指出目前的阅读理解的方法里,如果只用文段,或者只用文章的最后一句作为输入,预测效果将会更好。
7.Miscellaneous奇葩项
下面介绍的这些论文的研究方向都可以说是剑走偏锋,非主流,不过还是很值得关注的。
- Stanovsky and Hopkins提出一种检测word representation 到底好不好的方法。他们利用ODD-MAN-OUT这个游戏,游戏的规则是这样的,我们每次提供五个单词给模型,让模型从里面跳出来最奇怪的一个。
- Shen et al.也研究的是个游戏,他们研究的是个简化版本的Codenames。在他们的游戏中, 发言人 会被给予3个名词,然后发言人需要挑一个形容词来形容他们,然后由 听众 确定发言人形容的是哪两个词。
- Wood-Doughty et al.探究文本中的因果推理方法,并且将因果推理划归成了分类问题。
- 还有研究性别歧视的。。。这我就不讲啦。。。
8. 总结
每次看大神的博客总是会获益匪浅,这一次也是对学习偏倚有了更加深刻的认识:好的学习偏倚就是为了捕获语言中的不变性而做的假设,而好的模型就是为了实现学习偏倚的假设而设计的网络结构。另,最近被黑中介、黑导师整的贼烦啊。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。