2023年,对于所有的人工智能领域只有一个共同的主题——大模型。大模型的受关注程度与发展速度可谓前所未有。其中,基于大模型的Agent又是最近几个月大模型领域的热点。这不开始研究没有几个月,综述文章都出来了,你说快不快,你说吓不吓人。让我们这些小角色疲于奔命也赶不上技术发展的步伐啊。
大模型,全称是大规模语言模型。随着训练数据量和模型参数的增加,大模型开始涌现超强的文本生成能力和分析推理能力。现在的大模型完全具备一个普通人的推理分析能力,只要你能够设计出合理的提示语(Prompt)。也就是说,只要你更够把任务交代清楚,大模型就能够给一个满意的答复。
可是人类还是不满足于现状,他们连布置任务也懒得去做了,直接告诉大模型一个最终目标,让它自己去理解任务、分解任务、再去执行任务。因此基于大模型的Agent被提出,它充分发挥了大模型强大的推理能力。下面给出基于大模型的Agent通用框架。
基于大模型的Agent架包括三个组成部分:大脑、感知和行动。作为控制器,大脑(Brain)模块承担着诸如记忆、思考和决策等基本任务。感知(Perception)模块负责从外部环境中感知和处理多模态信息,而行动(Action)模块则使用工具执行任务并反馈到周围环境。
大脑(brain),是上述框架的核心,主要由大模型去做。借助大模型强大的自然语言交互能力,大脑可以很好的与外界通过自然语言进行交互,即准确理解感知模块输入的信息和生成准确的输出文本反馈。除了与外界交互,更重要的是其强大的推理、分析和决策能力。这些能力是通过大模型的训练自动涌现的。目前也没有一个特别合理的解释,说明为什么简单的语言模型,当数据量和模型参数到达一定规模,就会涌现出之前没有预料到的能力。当然,想要进行准确的推理、分析和决策,还需要一定的知识作为支撑,这些知识包括常识知识和领域知识等。大模型掌握了非常丰富全面的通用领域的尝试知识,但是对于特定领域知识还是有限。
感知(Perception),指对大脑的输入控制。大脑当前最成熟的感知手段还是自然语言输入。但是人类真是的感知场景的多模态的,即我们感知一个事物主要是通过眼睛去看,通过耳朵去听,通过文字去理解等。因此,大模型的感知部分未来的发展趋势一定是多模态融合的,尤其是文本+图片(视频)+音频。当然,在特定问题上也需要对其他感知形式进行处理,最典型的就是传感器产生的数据的感知。
行动(Action),当大脑对感知的多模态信息进行整合与分析之后,就需要根据决策内容进行对应行动。最简单的行动就是返回一段文本,把答案或者执行计划用文本形式返回。稍微复杂一些的话,就是让大模型直接调用一些工具去执行操作。这个就需要大模型知道都有哪些工具,每个工具的用途是什么,这些工具的调用方法等。对于不同的需求,大模型会找到适合的工具去调用,并返回结果。这些工具可以是任意能够通过API调用的服务,当前用的最多的是搜索引擎服务。当然,对于嵌入到机器人上,执行的行为可以更复杂,例如具体的机械臂的操作等。
基于大模型的Agent应用场景非常广泛,通过设计大量的Agent,还可以模拟社会环境去研究社会学问题。
参考:The Rise and Potential of Large Language Model Based Agents: A Survey