最近工作与大模型息息相关,一入AI深似海,大模型产业日新月异。毫不夸张的说我上个月才做的技术调研,这个月就已经过时了,好几次在隔壁部门听见同事谈论大模型相关问题,走进听是听见了但仿佛在说外星语。大模型领域有很多专业词汇,比如什么AGI、AIGC、多模态、Token、RAG、COT、SFT、LORA等等,对非这个行业从业者来说,初次见到通常不明所以,特此在这篇文章里总结工作上用到的及调研过的一些AI领域专业术语,涵盖基础概念、机器学习&深度学习、NLP、多模态、智能体等多个类别
基础概念
概念 | 释义 |
---|---|
LLM(大语言模型, Large Language Model) | 基于海量文本数据训练的深度学习模型,如GPT系列、BERT等,能够理解和生成自然语言文本,能够进行复杂对话、文本创作等任务。 |
AGI(通用人工智能, Artificial General Intelligence) | 这是AI研究的理想目标,追求创造能像人类一样学习新技能、解决广泛问题的智能体,目前仍处于理论探索和初步实践阶段。 |
AIGC (人工智能生成内容) | 利用AI技术生成的各种内容,从文本、图像到视频,利用算法创造新颖、个性化的内容,如AI艺术画作或定制文章。 |
Prompt(提示词) | 在AI大模型中用于引导模型生成特定类型输出的上下文信息或指令,例如,告诉模型“写一篇科幻故事”。 |
提示工程(Prompt Engineering) | 设计和优化输入提示以获得所需模型输出的过程,涉及精心设计输入提示,以优化模型输出的准确性、创意或特定风格,是提高AI大模型响应质量的关键策略。 |
多模态(Multimodal) | 文本、图像、音频等都是一种模态,多模态指能够处理文本、图像、音频等多种类型数据的模型,实现对多模态信息的综合理解和分析。 |
推理(Inference) | 大模型的推理(Inference)是指使用已经训练好的模型进行实际应用,生成预测或输出结果的过程。例如大模型根据问题生成答案,根据文本描述生成图片等。 |
涌现(Emergence) | 指的是系统中新的性质、模式或行为在更简单的组件相互作用下自发形成的现象。 |
对齐 | AI价值对齐是指让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。 |
Token | 通常指的是文本或数据中的一个基本单元或符号,在自然语言处理中,单词是最常见的 token。例如,“你好,世界!”会被分解为“你”、“好”、“,”、“世界”和“!”这样的token,便于机器理解和处理。 |
智能体(Agent) | 在环境中感知、思考并采取行动的自主AI系统。 |
世界模型 | 指AI系统内部构建的对现实世界的抽象认知模型,用于预测、规划和决策,是实现高级人工智能的关键组成部分。 |
大模型幻觉 | 幻觉是指大型语言模型生成的内容看似合理但实际上不准确或虚构的信息。原因是尽管模型可以生成符合语言结构的文本,但它们并不具备真正的理解能力,只是基于概率生成下一个词语。 |
具身智能 | 拥有物理实体的智能体(如机器人),通过与环境的互动学习和适应,实现更接近生物体的智能表现。 |
端到端(End-to-End,简称E2E) | 指的是一个系统或模型能够直接提供从输入数据到输出数据的解决方案,而不是通过传统的分模块处理方式 |
机器学习
概念 | 释义 |
---|---|
机器学习 (Machine Learning, ML) | AI的子领域,让计算机能够从经验中学习并提升任务执行能力。就像一个孩子通过不断尝试和反馈学会骑自行车,ML模型通过分析大量数据和调整内部规则,逐步提高其预测或决策的准确性。 |
深度学习(Deep Learning) | 这是机器学习的一个分支,通过构造多层神经网络来模拟人类大脑的深层处理机制,能够自动提取数据中的复杂特征,比如在人脸识别中区分眼睛、鼻子等细微特征,进而实现高度精确的分类或预测。 |
Transformer | 这是一种革命性的神经网络架构,通过自注意力机制有效分析序列数据,解决了长距离依赖问题,是大模型的核心架构 |
神经网络(Neural Network) | 神经网络是人工智能领域的核心概念之一,模仿人脑的结构和功能,用来解决复杂的计算和模式识别问题。它们由许多称为“神经元”或“节点”的简单计算单元组成,这些单元互相连接形成网络。每个神经元对输入信息做简单运算后,将信号传给下一个神经元,层层传递,最终完成复杂的计算任务,如图像识别或语音理解。 |
CNN(卷积神经网络, Convolutional Neural Network) | 特别设计用于图像识别的“视觉侦探”。它通过一系列“卷积层”工作,这些层能够自动检测图像中的边缘、纹理等基础特征,并逐渐构建出更复杂的图像理解,比如识别一只猫是否在图片中,即使它的姿态各异。 |
RNN(循环神经网络, Recurrent Neural Network) | 时间序列数据的“记忆大师”。与传统神经网络不同,RNN具有循环结构,使其能够处理如语言、股票价格等序列数据,在每个时间点考虑之前的信息,这使得它在预测未来事件或理解文本上下文时非常有效。 |
GPT(Generative Pre-trained Transformer) | 作为另一款基于Transformer的模型,GPT专注于生成连贯、有创意的文本,从文章写作到故事构思,它都能根据初始提示产出令人惊叹的续篇,展示了强大的语言生成能力。 |
BERT(Bidirectional Encoder Representations from Transformers) | 自然语言处理领域的“双向翻译官”。BERT利用Transformer架构学习文本的双向上下文信息,意味着它能同时理解一个词在句子前后的含义,从而在问答、情感分析等任务中表现出色。 |
知识蒸馏(Knowledge Distillation) | 通过让小模型学习大模型的决策过程和输出,就像一位经验丰富的导师将其知识浓缩传授给徒弟,从而在减少计算资源的同时保持高性能。 |
预训练 (Pre-training) | 在特定任务的数据上先训练模型,获取一般语言知识,之后再针对具体任务微调。 |
微调 (Fine-tuning) | 在预训练模型的基础上,针对特定任务进行额外训练的过程。 |
参数(Parameter) | 是指模型中的可训练变量,这些变量决定了模型的行为和性能。具体来说,参数通常是神经网络中的权重和偏置,它们在训练过程中通过梯度下降等优化算法进行更新。参数量是衡量模型规模的一个重要指标。如Llama 7B,表示拥有70亿参数量。 |
权重(Weights) | 连接神经元的权重是最常见的参数。每个权重决定了一个输入信号对输出信号的影响程度。 |
生成模型(Generative Model) | 这类模型能够基于已知数据模式生成新的数据实例,包括文本、图像等,展现创造性输出能力,如GPT-3。 |
扩散模型(Diffusion Model) | 这是一种创意十足的生成模型,想象一下将一滴墨水在水中慢慢扩散开来,最终形成图案的过程,但这里的“墨水”变成了数据,如图像、声音或文本。通过模拟物理世界中的扩散现象,它从随机噪声开始,一步步“澄清”出清晰的内容,尤其擅长创造细腻的视觉艺术和复杂的数据结构。 |
模型量化(Model Quantization) | 减少模型存储和计算需求的技术,通过降低参数精度,如将32位浮点数转为8位整数,实现模型瘦身。 |
Token | 通常指的是文本或数据中的一个基本单元或符号,在自然语言处理中,单词是最常见的 token。例如,“你好,世界!”会被分解为“你”、“好”、“,”、“世界”和“!”这样的token,便于机器理解和处理。 |
Tokenizer | 用于将连续的文本序列(如句子或段落)分割成更小单位的工具或算法,例如单词、短语或符号,这些单元通常称为 "token"。 |
Embedding(嵌入) | 将文本转化数值向量的技术,便于机器处理,例如,将“猫”表示为一个100 维的向量 [0.21, -0.34, 0.65, ...],这个向量捕捉了“猫”的语义信息。 |
上下文窗口 (Context Window) | 语言模型处理文本时考虑的前后词元范围,用于捕捉文本的语境信息。较大的窗口提供更丰富语义,帮助生成连贯、准确的文本,避免歧义,改善上下文依赖处理。例如,GPT-4 Turbo的128k Token上下文窗口让它能生成高度相关和细腻的回复。 |
MoE(Mixture of Experts) | 一种在深度学习中使用的模型架构,旨在提高模型的性能和效率。MoE模型通过将不同的子模型(称为“专家”)组合在一起,每个专家专门处理特定的输入特征或任务,从而实现更好的泛化能力和计算效率。 |
数据标注 | 是指为机器学习和人工智能模型准备训练数据时的过程,即为数据集中的样本添加标签、标注或注释,以便模型能够理解和学习数据的含义和特征。 |
数据清洗(Data Cleaning) | 是对数据集进行详细检查和修正的过程,旨在提升数据的质量和可靠性。这一过程专注于识别并纠正数据中的错误、不完整信息、不一致性及冗余现象 |
练丹 | 在机器学习领域,指训练大规模的神经网络模型,特别是预训练语言模型,如GPT、BERT等。这个过程需要大量的数据、算力和技巧,就像炼制灵丹一样。炼丹重点描述模型调优的过程。这个过程往往需要大量的尝试和经验,包括选择合适的模型结构、优化算法、损失函数、学习率等,就像炼丹一样需要精细的操作和耐心的等待。 |
蒸馏 | 模型蒸馏是一种模型压缩技术,它的目标是将一个大型、复杂的模型(被称为教师模型)的知识转移到一个小型、简单的模型(被称为学生模型)中。 |
挖矿 | 在机器学习中,"挖矿"通常指的是数据挖掘,即从大量的、未经过处理的数据中提取有用信息和知识的过程。这个过程包括数据清洗、数据转换、数据分析、模式识别等步骤。在深度学习中,"挖矿"也可以指硬件的使用,比如使用GPU进行模型的训练,这个过程因为其高能耗和高计算需求,被比喻为"挖矿"。从大量的无标注数据中挖掘出有用的信息或知识,例如构建知识图谱、生成对话数据等。 |
自动驾驶
概念 | 释义 |
---|---|
NOA (Navigate on Autopilo) | 智能导航辅助驾驶,但不同车企的叫法不同,例如小鹏那边叫NGP、华为那边叫NCA、蔚来那边叫NOP |
AEB (Autonomous Emergency Braking) | 自动紧急刹车系统,一种汽车主动安全技术,主要由3大模块构成,包括控制模块(ECU),测距模块,和制动模块。其中测距模块的核心包括微波雷达、人脸识别技术和视频系统等,它可以提供前方道路安全、准确、实时的图像和路况信息 |
NLP
概念 | 释义 |
---|---|
自然语言处理 (NLP) | 计算机科学领域,研究如何让计算机理解、解释和生成人类语言。 |
语义理解 (Semantic Understanding) | 模型理解文本意义,而不仅仅是字面意思,涉及上下文、隐喻等。 |
知识图谱(Knowledge Graph) | 一个结构化的知识表示形式,用于存储和展示实体(如人、地点、物品)及其相互关系。它通过节点(表示实体)和边(表示实体间的关系)构建出一个网络,使得信息可以以一种直观且易于检索的方式组织和存储。 |
文本生成 (Text Generation) | 根据给定的提示或上下文生成新的、连贯的文本内容。 |
机器翻译 (Machine Translation) | 将文本从一种语言自动翻译成另一种语言的技术。 |
情感分析 (Sentiment Analysis) | 判断文本中表达的情感倾向,如正面、负面或中性。 |
问答系统 (Q&A) | 自动回答用户提出的问题,需要理解问题并从数据中检索或生成答案。 |
对话系统 (Dialogue Systems) | 能够与用户进行自然语言对话的AI系统,应用于聊天机器人等。 |
聊天机器人(Chatbot) | 是一种人工智能应用程序,能够与用户进行自然语言交流,如ChatGPT等。 |
text2sql | Text2SQL是一种自然语言处理技术,它能将普通自然语言文本自动转换为结构化的SQL查询语句,使得用户无须了解SQL语法即可对数据库进行查询。这项技术广泛应用于智能客服、数据分析和BI工具中,通过理解用户提问,自动生成对应数据库查询指令,获取准确信息。 |
大模型智能体
概念 | 释义 |
---|---|
智能体(Agent) | 在环境中感知、思考并采取行动的自主AI系统。 |
多智能体(Multi-agent) | 多个智能体协作联合解决复杂问题的系统。 |
RAG(Retrieval-Augmented Generation) | 检索增加生成,融合检索与生成的混合策略,增强AI内容创作的丰富度与准确性。 |
self-RAG(self-reflection-Retrieval-Augmented Generation) | 自我反思增强RAG。 |
graph-RAG(graph-Retrieval-Augmented Generation) | 一种新方法,它使用由LLM创建的知识图谱进行全局摘要,与之前专注于结构化图检索的方法不同,这种方法利用图的模块性将其划分为密切相关的组或社区。当被问及问题时,这些摘要生成部分响应,这些响应被组合成最终答案。 |
Function Calling | AI模型的外部能力拓展,直接调用函数或API,实现更广泛的实用功能和复杂操作。 |
Reflection | 智能体的自我审视与调节能力,使其能监控自身状态,适时调整策略,优化决策过程。 |
框架&工具
概念 | 释义 |
---|---|
TensorFlow | 谷歌开源的机器学习框架,为AI开发者提供强大的工具箱,助力模型构建与算法优化。 |
PyTorch | 来自Meta(原Facebook)的机器学习神器,为深度学习研究与应用提供灵活而强大的工具。 |
langchain | 是一个用于开发基于大模型应用程序的框架。 |
Ollama | 一个可以运行Llama大模型的开源推理框架。 |
LlamaIndex | LlamaIndex是一个连接大模型与外部数据的工具,它通过构建索引和提供查询接口,使得大模型能够学习和利用私有或者特定领域的数据。 |
向量数据库 | 专为高维向量数据设计的存储系统,常用于搜索、推荐系统及AI中的相似性匹配,提高数据检索效率。 |
Neo4j | 一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。 |
huggingface | 一家专注于自然语言处理(NLP)的人工智能公司,以其开源的Transformers库闻名。该库提供了广泛的预训练模型和工具,支持多种任务,如文本分类、文本生成、翻译、问答等 |
大模型产品
概念 | 释义 |
---|---|
ChatGPT | 是OpenAI研发的一款聊天机器人程序,ChatGPT是人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。 |
Gemma | Gemma是谷歌研发的AI大模型。 |
Claude | 美国人工智能初创公司Anthropic发布的大型语言模型家族。 |
Llama | Meta(原Facebook)公司开发的开源大语言模型。 |
Qwen | 阿里巴巴公司开发的开源大语言模型。 |
配套硬件&软件
概念 | 释义 |
---|---|
GPU | 图形处理器,现代计算的加速器,尤其在深度学习和高并行计算任务中发挥着至关重要的作用。 |
NPU | 嵌入式神经网络处理器,一般适用于特定领域的加速计算,如人工智能和计算机视觉等。 |
CUDA | NVIDIA开发的并行计算平台和编程模型,允许开发者利用GPU的强大性能,加速科学计算、图形处理等应用。 |
技术讨论 & 疑问建议 & 个人博客
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 许可协议,转载请注明出处