本手册列出了高频出现的大模型相关名词的英文名称、中文名称及释义,希望对同学们学习大模型有所帮助
答案来自于文心一言,并对描述进行了改写和优化
大语言模型 Large Language Model
使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
提示词 Prompt
用于引导模型生成特定文本或响应的输入提示。提示词通常是一种自然语言文本,用于激发模型生成所需的内容。
例如,在一个问答系统中,当用户输入一个问题时,提示词可以是问题的文本内容。模型会根据这个提示词生成一个答案。又比如,在一个文本生成任务中,提示词可以是一个标题、一段描述或其他类型的文本输入。模型会根据提示词生成相应的文本输出。
提示词的设计和使用对于大语言模型的性能和效果至关重要。一个好的提示词应该能够清晰地表达所需生成文本的主题、内容和格式,以便模型能够准确地理解要求并生成合适的响应。同时,提示词还应当符合模型的接受能力和限制条件,以确保生成的文本质量较高且符合预期。
预训练 Pre-Training
在一个大规模的无标签数据集上训练模型,使其能够学习语言的基本模式和特征,以适应各种自然语言处理任务。
在预训练阶段,模型会接收到大量的文本数据,例如从互联网上抓取的大量文章、网页和社交媒体帖子等。这些数据没有被标记或分类,但模型需要从中学习如何表达和理解文本。
预训练通常使用深度学习技术,例如自回归模型(如GPT系列)、自编码器(如BERT系列)等。这些模型通过预测文本中的下一个单词或通过尝试恢复输入的文本等方法,学习语言模式和特征。
预训练的目标是使模型能够更好地理解文本,并能够生成和理解更复杂的语言结构。这样,当模型在执行特定任务时,例如分类文本或回答问题时,它就可以利用已经学到的知识来提高任务的性能。
在预训练之后,模型会被用来执行特定任务,例如情感分析、问答、翻译等。在这些任务上,模型需要进行微调(fine-tuning),以便更好地适应特定任务的要求。微调可以是模型在较小规模的有标签数据集上进行训练的过程,以提高模型在特定任务上的性能。
有监督精调(Supervised Fine-Tuning,SFT)
在大规模无标签数据集上进行预训练后,在特定任务的小规模有标签数据集上进行微调,以提高模型在特定任务上的性能。
在SFT过程中,模型会利用预训练阶段学到的知识,以及有标签数据集中的标注信息,对模型进行微调。这样可以使得模型更好地适应特定任务的要求,提高模型在特定任务上的准确性和泛化能力。
SFT通常使用深度学习技术,例如自回归模型(如GPT系列)、自编码器(如BERT系列)等。这些模型可以通过有标签的数据集进行微调,以便更好地适应特定任务的要求。
基于⼈类反馈的强化学习 RLHF
以强化学习方式依据人类反馈优化语言模型(Reinforcement Learning from Human Feedback)的一种生成领域的新训练范式。它涉及到了多个模型的训练过程以及部署的不同阶段。
在RLHF训练过程中,首先需要预训练一个语言模型,然后收集数据并训练一个收益模型。接下来,使用强化学习微调上述的语言模型。具体来讲,人工会针对多个模型给出的不同答案进行排序,然后基于这些排序建立一个“奖惩机制”,再用强化学习继续训练,以逐步优化模型的表现。
RLHF的目的是让语言模型能够根据人类反馈来调整自己的答案,以提高模型的可靠性和实用性。
提示词工程 Prompt Engineering
对prompt精⼼设计和优化,以获得更好、更准确或更有⽤的输出
指令学习 Instruction Tuning
通过给定指令或指导来训练模型,使其按照给定的指导执行特定任务的技术方法。它通常结合强化学习的方法,通过奖励模型正确执行指导的任务,从而优化生成的结果。在技术系统性能和效率的改善中,Instruction Tuning 通常涉及对技术系统中的硬件和软件组件进行优化,以实现更快的执行速度、更低的功耗和更好的可靠性。
上下⽂学习 In-context Learning
in-context learning相⽐指令学习引⼊了前置信息,⽅便模型理解任务要什么做、为什么这么做。前⽂中『分类-静态代码扫描』、『匹配-测试⽤例匹配』都使⽤了in-context learning技巧,其中的示例称为shots,因此狭义上in-context learning也可以称为few-shots,zero-shot则指没有示例只有指令的prompt
思维链(Chain-of-Thought,CoT)
⼤模型中的思维链技术是⼀种改进的提示策略,⽤于提⾼LLM在复杂推理任务中的性能,例如算术推理、常识推理和符号推理。它结合了中间推理步骤,将这些步骤作为提示引⼊模型,帮助模型更好地理解和解决复杂问题。这种技术使得模型在解决问题时能够更准确地给出答案,并且能够提供详细的推理过程。
除了few-shots的思维链过程,还有⼀种zero-shot的思维链过程,即在复杂任务最后加上『请你⼀步步思考』或『Let's think step by step』或类似精⼼设计的引导词,引导模型逐步思考。
温度 temperature
• 描述:温度是⼀个控制模型输出随机性的参数。它影响模型在选择下⼀个词时的确定性。
• ⼯作原理:
当温度接近0时,模型更可能选择最有可能的词,使输出更加确定性。
当温度增加(例如,设置为1或更⾼),模型的输出会变得更加随机。
应⽤场景:如果你希望模型的输出更加多样化和创意,可以增加温度。如果你希望输出更加⼀致和准确,可以降低温度。
知识增强
在设计prompt时通过引⼊外部知识库或数据源来增强模型的知识,通常涉及将结构化的知识(如知识图谱)与prompt结合,使模型能够更好地理解和⽣成与这些知识相关的内容,如问及特定的历史事件或科学事实时,知识增强可以帮助模型提供更准确和详细的答案。
LoRA
LoRA(Low-Rank Adaptation of Large Language Models,大型语言模型的低秩适应)是微软研究员提出的一种新颖技术,旨在解决微调大型语言模型的问题。
对于拥有数十亿参数的强大模型,例如GPT-3,对其进行微调以适应特定任务或领域的成本非常高。LoRA提议冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵)。这大大减少了可训练参数的数量和GPU内存需求,因为大部分模型权重不需要计算梯度。
通过专注于大型语言模型的Transformer注意力块,LoRA的微调质量与完整模型的微调相当,同时速度更快,计算需求更低。尽管LoRA最初是为大型语言模型提出的,但这种技术也可以应用在其他地方。
LoRA具有训练速度更快、计算需求更低、训练权重更小的优点。同时,LoRA可以与其他技术结合使用,例如Dreambooth,使训练更快、只需少量图像即可实现目标学习,还可以调整文本编码器以获得更高的主题保真度。总之,LoRA为微调大型语言模型提供了一种快速、低成本的解决方案,使模型能够更容易地适应新的领域或数据集。