<Paper Reading Series>
本文基于Facebook 2019的文章:Cross-lingual Language Model Pretraining
- 研究背景
- 前人的解决方式
- 模型核心思想
- 具体实现细节
- 实验结果
- 结论
研究背景
TODO
前人的解决方式
TODO
模型核心思想
Contribution:
- 提出了一种新的无监督方法(CLM,MLM),用于使用跨语言建模来学习跨语言表示,并研究了两种单语预训练的目标。
- 提出一个新的监督方法(TLM),即当并行数据可用时,该目标可以增强跨语言的预训练效果。
原文: we present the three language modeling objectives we consider throughout this work. Two of them only require monolingual data (unsupervised), while the third one requires parallel sentences (supervised).
两种方法在跨语言分类、无监督机器翻译和有监督机器翻译方面都取得了最先进的成果。
细节可参考
具体实现细节
-
BPE编码
在建模之前,需要先对多语言进行编码。作者采用BPE(Byte Pair Encoding)编码方式对多语言输入进行编码。训练BPE编码方式时需要对句子进行采样,由于不同语言句子的数量不同,我们根据概率进行采样,但会加一个参数,使这个概率分布稍微“柔和一些”,即增加低资源语言采样到的概率,降低高资源语言采样到的概率。也就是防止低资源语言都被切分成character-level级。
因果语言建模 (Causal Language Modeling , CLM)
使用transformer模型去进行预训练,训练目标是给定句子的前n个词,预测下一个词。-
Masked Language Modeling (MLM)
Devlin et al. (2018) 论文中提出的 MLM 也是我们的一个语言建模目标,也成为完形填空任务。根据 Devlin 等人的研究,我们从文本流中随机抽取 15% 的 BPE token,80%的时间用 [MASK] token 替换,10% 的时间用随机 token 替换,10% 的时间保持不变。
不同的是不使用句子对,而是使用任意长度的句子集合组成的文本流(text streams of an arbitrary number of sentences)
翻译语言建模 (TLM)
CLM 和 MLM 的目标都是无监督的,只需要单语数据。但是,当并行数据可用时,这些目标不能用于利用并行数据。我们提出一种新的翻译语言建模方法 (TLM) 来提高跨语言训练的效果。我们的 TLM 目标是 MLM 的扩展,其中不考虑单语文本流,而是将并行的句子连接起来。
训练细节见原文。
实验结果
预训练流程:
简而言之就是:CLM/MLM (+TLM),也即从CLM或MLM中选一个进行单语LM的预训练,然后再根据需求和数据情况,决定要不要加入TLM进行训练,加入的话就是和前面的CLM/MLM进行交替训练。
先用CLM/MLM在各个语言的单语语料上进行训练(也有加上额外的平行语料进行TLM训练的部分),然后再用单语的训练集进行finetune,最后在多个语种上评估。
结论
TODO