BERT预训练模型

bert之前的语言模型

n-gram语言模型：根据前面n个词预测当前词，它的缺点是，一般只能取1-2，n越大计算成本越高，这就使得它关注的信息是非常局限的。

预训练语言模型：wordvec\glove\fasttext。wordvec是根据周围词预测当前词或当前词预测周围词，相比于n-gram，它关注了下文，但它仍然是关注局部信息。glove通过构建词频共现矩阵来训练词向量，将全局信息融入到词向量中。fasttext仍然是局部的，只是他分词是基于subword，对于oov词相对友好。三者共同的缺点是，无法解决一词多义问题。

高级语言模型：elmo\GPT，elmo采用1层静态向量+2层单向LSTM提取特征，并且能够解决一词多义，elmo是一个双向语言模型，但实际上是两个单向语言模型（方向相反）的拼接，这种融合特征的能力比 BERT 一体化融合特征方式弱。GPT采用Transformer的decoder单元提取特征，同样也可以解决一词多义问题，但GPT是单向的。所以，对上下文信息的融合，二者能力还不够。

bert的产生

bert是双向语言模型，句子没有shift_mask操作，所以是完整的上下文环境，证实了双向语言模型对文本特征表示的重要性。bert同时证实了预训练模型能够简化很多繁重任务的网络结构，在11个nlp任务上都有显著提升。

bert的架构

左图是bert

tranformer左侧的encoder单元

bert采用Transformer的encoder单元提取特征，encoder中包含几个重要的机制：self-attention、muti-head attention、position encoding。

bert分为bert_base和bert_large大小两个模型，bert_base采用了12个encoder单元，768维隐藏层，12个attention。bert_base采用了24个encoder单元，1024维隐藏层，16个attention。

bert的输入

input：单句或句对组合，有[cls]作为句子开头的标记，[sep]作为句子分隔和结束的标记。

token embedding：对于英文采用WordPiece embeddings，也就是一个单词会被拆成词根词缀的，比如图中的playing被拆成了play和ing两个token；对于中文，就是单子拆分。

segment embedding：相邻句子采用不同的标志分隔，形如111111111100000011111100000。

position embedding：在transformer中，单词之间是没有先后顺序的，而语言本身是有序的，所以采用采用正余弦函数来计算每个单词的先后顺序，这种方式有点勉强，算是折中方式。

预训练任务一：Mask LM

前面讲到elmo也是双向语言模型，它是采用bi-LSTM来提取特征，如下：

比如一句话：‘北京是中国的首都’，在LSTM中从左往右，预测‘中国’的时候只能看到‘北京’，从右往左，预测‘中国’的时候只能看到‘首都’，然后将两个lstm的输出做拼接来达到上下文信息融合的目的。其实是没有完全做到双向，只是以结构的改变来接近双向语言模型。真正的双向是预测‘中国’的时候，需要同时看到‘北京’和‘首都’。由此，mask LM产生了。

mask LM的原理是将‘中国’遮盖住，同时用‘北京’和‘首都’来预测‘中国’。‘北京’和‘首都’联系起来语言模型很容易联想到就是‘中国’啦。这个思想和wordvec的CBOW模型如出一辙，就是用周围词预测当前词，只是这个思想放在厉害的transformer中，便能大显其能。

BERT的mask方式：在选择mask的15%的词当中，80%情况下使用mask掉这个词，10%情况下采用一个任意词替换，剩余10%情况下保持原词汇不变。这样mask的优点是什么？

1）被随机选择15%的词当中以10%的概率用任意词替换去预测正确的词，相当于文本纠错任务，为BERT模型赋予了一定的文本纠错能力；

2）被随机选择15%的词当中以10%的概率保持不变，缓解了finetune时候与预训练时候输入不匹配的问题（预训练时候输入句子当中有mask，而finetune时候输入是完整无缺的句子，即为输入不匹配问题）。

预训练任务二：NSP （Next Sentence Prediction ）

在Mask LM任务中，模型学到了词与词之间的关系，而NSP任务是要模型学到句子与句子之间的关系，比如问答、推理等。它将训练语料分为两类，一是将50%语料构建成正常语序的句子对，比如A-B句子对，B就是A的实际下一个句子，并做标记为isnext；二是将50%语料构建成非正常语序句子对，B是来自语料库的随机句子，并做标记为notnext。然后通过对句子对的关系做分类，预测B到底是不是A句子的下一个句子，使模型具有句子级别的识别能力。

Fine-tuning

微调的目的在于我们的任务与bert预训练任务是不一致的，但是bert是非常好的语言模型，他具备提取词法和句法的强大能力。将bert嵌入到我们的网络结构中，能够简化在语言模型方面的复杂结构。只需要将输入做成和bert适配的格式就行，而在bert后面接上全连接、CNN等简单模型进行训练，就能够使训练得到一个比较好的效果。

BERT & GPT

GPT 和 BERT 都采用Transformer，Transformer 是encoder-decoder 结构，GPT 的单向语言模型采用 decoder 部分，decoder 的部分见到的都是不完整的句子；BERT 的双向语言模型则采用 encoder 部分，采用了完整句子。他俩最主要的区别在于BERT是双向语言模型，更适合文本分类等任务，GPT是单向语言模型，更适合生成式任务。

bert每一层学到什么

1）低层网络捕捉了短语级别的结构信息

2）表层信息特征在底层网络（3，4），句法信息特征在中间层网络（6~9），语义信息特征在高层网络。（9~12）

3）主谓一致表现在中间层网络（8，9）

BERT的变体

1）ROBERTA

•静态mask->动态mask：在bert中每一个epoch被mask的是相同的词，而ROBERTA在每一个epoch结束，重新随机15%的词，使不同的词被mask。

•去除句对NSP任务，输入连续多个句子：在bert中最长是512个token，输入单句或者句对不容易把512个token占满，ROBERTA输入更多句子占满512个坑位。

•训练使用更多数据更大batch size 更长时间

2）ALBERT

•减少参数：词表 V 到隐层 H 的中间，插入一个小维度 E，即一个VxH的embedding变成两个VxE, ExH的两个fc。

•共享所有层的参数：Attention 和 FFN，在bert中每一层的Attention 和 FFN的参数是不一样的。

•SOP 替换 NSP：负样本换成了同一篇文章中的两个逆序的句子，bert中是A-->B和A-->随机，ALBERT中是A-->B，B-->A。

•BERT对MASK 15% 的词来预测。ALBERT 预测的是 n-gram 片段，包含更完整的语义信息。

•训练数据长度：90%取512，BERT90% 128

•对应BERT large：H:1024 ->4096 L:24->12 窄而深->宽而浅