2022-10-10 Bert模型

关注点1：Transformer

1. embedding层：把离散字符转化为数字

Embedding

1.1 token embeddings：用于区分文本内容，1个文本字符对应768维的向量，1个token embeddings输出N（字符数）x 768维的矩阵
1.2 segment embeddings:用于区分哪一句话,输出也是N x 768维的矩阵，同一句对应的向量是相同的
1.3 position embeddings:用于确定文本位置，输出也是N x 768维的矩阵
因此得到3个N x 768矩阵，3个矩阵相加，输出一个新的N x 768的矩阵

2. self-attention层:

attention机制

通过神经网络，计算句子中字符的权重w，从而对输入进行一定的加权（更关注某部分）ps: 原始输入文本x和decoder后的输出文本yt-1均需输入attention层进行权重的计算。

self-attention

区别于传统attention，不涉及输出的再输入。WQ,WK,WV是线性层（768x768）,与X（10x768）相乘后得到10x768矩阵，随机初始化后训练更新。

QxKT计算出文本的权每个字与其他字的相关性，softmax归一化得到权重，是self-attention，dk涉及多头机制，再乘以V（和原本数量相乘）

获得文本与其他文本的相关

多头机制：把原本的10x768矩阵切分为12个10x64的矩阵，在不同子空间训练模型，获得12个完全不同的self-attention矩阵，最后拼接，从而提升模型效果。

多头机制multi-head

3. LayerNorm(残差机制)

把embedding层和self-attention层输出相加，有助于保留一些原始信息，防止过拟合

LayerNorm(残差机制)

4. Feed Forward层（前馈层）

注：相比于CNN，RNN，随着长度增加，距离很远的数据也不会丢失。

优势：数据更全、更完整

优势：无距离限制，且可以并行，速度较快

调用方式

from transformers import BertModel

bert

关注点2：预训练方法

通过海量的不需要标注的数据训练得到bert预训练参数

随机遮挡: 学习每个字的意思

预测是否为下一句话：学习两句话之前的关联

Bert实际上就是个文本编码器，将文本向量化，本质上与LSTM，CNN等没有差异（ps.文本长度不一致，需要用0补齐）

下游任务中的使用

预训练模型的发展

1. ELMo

使用的是双向LSTM，预训练任务是单向预测（前N个字预测后1个字）

2.GPT

GPT:使用transformer，预训练任务还是单项预测，增加了有监督训练

3. Ernie-baidu

百度模型：在中文上表现更好，加入了先验知识，但导致不通用

4. Ernie-Tsinghua

清华模型：引入知识图谱

5. GPT2

GPT2：语言生成能力强，大数据大模型

6. UNILM

弥补bert生成文本的缺陷，通过MASK机制增加单向LM

7.Transformer-XL&XLNet

Transformer中position embedding有长度限制

一次bert解决不了，往下传递

相对位置编码

8.Roberta

Roberta

9.SpanBert

改变训练目标对模型也有提升

10. ALBERT

解决模型参数过多的问题

11. T5

利用seq2seq方式：迈向NLP的大一统

12.GPT3

超大模型，目标是不要调参

未来方向

参考资料：
八斗学院讲座笔记（侵删）

最后编辑于：2023.03.17 10:10:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,670评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,928评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,926评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,238评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,112评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,138评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,545评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,232评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,496评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,596评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,369评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,226评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,600评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,906评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,185评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,516评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,721评论 2赞 335