LERT-融入语言学特征的BER

论文链接:https://arxiv.org/pdf/2211.05344.pdf

模型链接:https://github.com/ymcui/LERT

TL;DR

本文在训练PLM模型时,融入了POS、NER、DEP等基础语言学弱监督特征数据,与MLM任务共同完成多任务学习,在中文NLU数据集中取得了不错的效果。

Abstract

大多数预训练模型都是在文本的表面形式上进行语言不可知的预训练任务,如掩码语言模型(MLM)。为了进一步赋予预训练模型更丰富的语言特征,在本文中,作者提出一种简单有效的方法来为预训练模型学习语言特征--LERT。它使用语言学信息预训练(LIP)策略,根据三种类型的语言特征以及原始MLM预训练任务完成训练。在10种中文NLU任务上进行实验,带来了不错的提升。此外,本文还进行了各种语言学方面的分析实验,结果证明了LERT的设计是有效的。

1.Introduction

MLM任务由于是随机选择的Mask字符,并没有显示使用语言学特征,因此它是一个非语言学的预训练任务。之前在预训练模型中融入语言学知识的工作大多数只专注于在PLM中包含几个语言特征,而没有仔细分析单个特征对整体性能的贡献以及不同任务之间的关系。此外,因为结构知识不能直接应用到PLM中,代码实现都相对复杂。

为了缓解上述问题,在本文中,作者利用传统的NLP任务显式地包含更多的语言知识,为模型预训练创建弱监督数据。同时提出了LERT(Linguistically-motivated bidirectional Encoder Representation from Transformer),LERT使用了多任务训练的模式,包含词性标注(POS),命名实体识别(NER),依存句法分析(DEP)等任务。为了平衡每个预训练任务的学习速度,作者提出了一种LIP(linguistically-informed
pre-training)策略,该策略能够更快地学习基础语言知识。

2.Related Work

  • LIMIT-BERT: 使用了5个语言学任务:词性标注,成分与依赖解析,片段,依存语义角色标注。
  • LEBERT:将额外知识注入到BERT各层中,用于解决中文序列标注任务。
  • CK-BERT:使用语言感知的MLM任务与对比多跳关系模型用来做预训练。

3 LERT

3.1 Overview

image

首先,对于给定的输入,进行分词提取语言特征。分词特征用于WWM与N-gram预训练任务,语言特征用于语言预训练任务,MLM任务与语言任务 共同进行训练。

3.2 Linguistic Features

本文使用LTP完成POS、NER、DEP三种语言基础特征的抽取。

  • POS有28种词性类型。
  • NER利用BIEOS标注模式,有13中类型。
  • DEP对输入句子使用依存句法分析,对从属关系的字符进行打标,共有14种类型。

3.3 Model Pre-training

LERT在MLM与3种语言学特征上共同完成多任务预训练。

3.3.1 MLM Task

与其他预训练模型使用的MLM任务一样,也是预测被Mask掉位置的字符

3.3.2 Linguistic Tasks

本文将语言学任务视为分类任务,每个字符被映射到它的POS、NER、DEP三种标签,模型最终同样使用全连接层去映射该字符的最终标签。

3.3.3 Linguistically-informed Pre-training

最终的Loss也是和大多数多任务学习一样:


image

直观上来看,MLM任务肯定是最重要的任务,如何来确定每个语言学任务Loss的权重呢?

本文提出了LIP策略,仔细分析,NER特征依赖于POS,DEP特征依赖于POS与NER,因此POS特征为最基础的语言学特征,NER、DEP次之。根据它们的依赖性,本文为每个语言特征分配不同的学习速度,从而NER和DEP更快地学习POS。这与人类的学习类似,我们通常先学习基本知识,然后学习依赖的高级知识。

不同任务的权重由当前的训练步数来进行决定,具体,如下公式:


image

本文中,POS、NER、DEP任务的T*分别为1/6、1/3、1/2。在训练步数达到总步数一半时,各个任务的权重就相等了。因此,POS、NER、DEP任务的学习速率依次变快。


image
image

4. Experiments

具体训练模型的参数可以直接看原文。作者提供了3种不同大小的模型,LERT small、LERT base、LERT large。

在MRC(机器阅读理解),TC(文本分类),NER(命名实体识别)任务上进行实验,下图分别为不同任务的实验结果。可以看出NER任务提升效果明显。

image
image

5. Analysis

具体的消融与分析可以直接参考原文。

6.Conclusion

本文提出的LERT使用了POS,NER,DEP等偏向学习语言特征的任务与MLM任务进行多任务联合训练。为了更好让模型获得语言知识,本文还提出了一个有效的基于语言知识的预训练策略。在多项中文NLU实验中,LERT均有了不错的提升。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容