ChatGPT技术报告

ChatGPT是一个由OpenAI开发的大型语言模型，是GPT（Generative Pretrained Transformer）系列模型的一部分。它使用了 Transformer 架构，并在大量的文本数据上进行了预训练。预训练的目的是使模型能够从大量的文本中学习语言知识和模式，从而在接下来的任务中更好地进行语言生成。

ChatGPT 的应用领域广泛，包括聊天机器人，问答系统，文本生成，语音识别等。在聊天机器人领域，ChatGPT可以提供人类般的自然语言回答，并且在语法和语义方面的表现十分出色。

一、GPT发展历程

Generative Pre-trained Transformer (GPT)，是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。

1.GPT-1

2018 年，GPT-1 诞生，这一年也是 NLP（自然语言处理）的预训练模型元年。性能方面，GPT-1 有着一定的泛化能力，能够用于和监督任务无关的 NLP 任务中。其常用任务包括：

l 自然语言推理：判断两个句子的关系（包含、矛盾、中立）

l 问答与常识推理：输入文章及若干答案，输出答案的准确率

l 语义相似度识别：判断两个句子语义是否相关

l 分类：判断输入文本是指定的哪个类别

虽然 GPT-1 在未经调试的任务上有一些效果，但其泛化能力远低于经过微调的有监督任务，因此 GPT-1 只能算得上一个还算不错的语言理解工具而非对话式 AI。

2.GPT-2

GPT-2 也于 2019 年如期而至，不过，GPT-2 并没有对原有的网络进行过多的结构创新与设计，只使用了更多的网络参数与更大的数据集：最大模型共计 48 层，参数量达 15 亿，学习目标则使用无监督预训练模型做有监督任务。在性能方面，除了理解能力外，GPT-2 在生成方面第一次表现出了强大的天赋：阅读摘要、聊天、续写、编故事，甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在“变得更大”之后，GPT-2 的确展现出了普适而强大的能力，并在多个特定的语言建模任务上实现了彼时的最佳性能。

3.GPT-3

之后，GPT-3 出现了，作为一个无监督模型，几乎可以完成自然语言处理的绝大部分任务，例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。而且，该模型在诸多任务上表现卓越，例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平，自动产生的文章几乎让人无法辨别出自人还是机器，更令人惊讶的是在两位数的加减运算任务上达到几乎 100% 的正确率，甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好，似乎让人们看到了通用人工智能的希望，这就是 GPT-3 影响如此之大的主要原因。

image.png

由于 GPT-3 更强的性能和明显更多的参数，它包含了更多的主题文本，显然优于前代的 GPT-2 。作为目前最大的密集型神经网络，GPT-3 能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本，甚至模仿已故的各位哲学家——预测生命的真谛。且 GPT-3 不需要微调，在处理语法难题方面，它只需要一些输出类型的样本（少量学习）。可以说 GPT-3 似乎已经满足了我们对于语言专家的一切想象。

image.png

ChatGPT“前身”InstructGPT

InstructGPT 的工作原理是开发人员通过结合监督学习+从人类反馈中获得的强化学习。来提高 GPT-3 的输出质量。在这种学习中，人类对模型的潜在输出进行排序；强化学习算法则对产生类似于高级输出材料的模型进行奖励。开发人员将提示分为三个部分，并以不同的方式为每个部分创建响应：人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的 GPT-3 ，将它变成 InstructGPT 以生成每个提示的现有响应。

下一步是训练一个模型，使其对更好的响应做出更高的奖励。对于第二组提示，经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后，一个奖励模型(另一个预先训练的 GPT-3)学会了为评分高的响应计算更高的奖励，为评分低的回答计算更低的奖励。

开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后，语言模型会生成响应，而奖励模型会给予相应奖励。PPO 使用奖励来更新语言模型。

二、ChatGPT的技术原理

总体来说，Chatgpt 和 InstructGPT 一样，是使用 RLHF（从人类反馈中强化学习）训练的。不同之处在于数据是如何设置用于训练（以及收集）的。

ChatGPT是一个大型语言模型，由OpenAI训练，具有高效的语言处理能力。它的底层原理主要包括三个方面：Transformer架构、自注意力机制和预训练。

(1) Transformer架构：Transformer是一种用于处理序列数据（如文本）的神经网络架构，是在自注意力机制的基础上构建的。编码器和解码器是它的两个主要组成部分，分别用于处理输入数据和生成输出数据。

(2) 自注意力机制：自注意力机制是Transformer架构的核心，它通过编码输入单元并计算每个输入单元与每个输出单元的相关性，来实现对输入数据的分析。

(3) 预训练：预训练是一个在大量文本数据上训练语言模型的过程。通过预测文本中下一个词语的概率，模型学习语言的语法、语义和模式。预训练后的模型可以在新的数据上获得更好的表现。

ChatGPT的训练过程分为以下三个阶段：

第一阶段：训练监督策略模型

GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调GPT-3.5模型（获得SFT模型，Supervised Fine-Tuning) 。此时的SFT模型在遵循指令/对话方面已经优于GPT-3，但不一定符合人类偏好。

第二阶段：训练奖励模型（Reward Mode,RM)

这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。

接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段：采用PPO（Proximal Policy Optimization,近端策略优化）强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习，这个转化过程被称之为lmportance Sampling。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

ChatGPT技术报告

推荐阅读更多精彩内容