大语言模型业务应用的几种方式

考虑业务与大模型结合时,优先选择PromptOnly和Embedding,找业务与大模型的结合点,先用起来以后再考虑做大模型微调。

总结目前对大模型的使用模型,从轻度到重度有如下三种:

  • 纯提示词模式(PromptOnly):直接使用提示词结合千帆Prompt模版调用大模型 API,这是目前最容易上手、也是效果最明显的方式;
  • 嵌入向量模式(Embedding):将知识预处理存入向量数据库,在提问时通过向量相似度查询找到关联知识,然后跟Prompt模版 + 关联知识 + 问题一起加入提示词,再调用大模型 API进行推理;
  • 微调模型模式(Fine-tune):将知识通过 SFT、Prompt Tuning、LoRA等微调训练方式存入大模型,然后使用时再进行 Prompt 进行调用。

一、纯提示词模式(PromptOnly)

调用文心大模型通用API能力进行推理,不需要做模型微调,如果QPS要求不高(<5),也不需要做模型托管,通过合理使用Prompt提示工程技巧(few shot、CoT等),能够胜任内容生成、推理、通用知识问答等大多数场景。这是大模型应用的首选模式,当考虑客户业务与大模型结合时,首先要考虑的就是这种模式。能用Prompt解决的问题,都不是真正的问题,如果不能,再想想是否Prompt没写对。

二、嵌入向量模式(Embedding),即知识库

涉及到专业知识问答, 通用大模型就无法胜任了,这时候有两种选择: 嵌入向量模式、精调模型模式。
嵌入向量模式是先将知识文档分片,然后将分片后的知识片段通过调用大模型 API 获取其对应的向量,这个向量也就是我们所说的Embedding。随后将上述调用后得到的向量值存入向量数据库。
在用户提问后,应用层先将用户问题调用大模型 API 获得对应的向量(Embedding),然后通过此向量到向量数据库中查询相似度最相似的 TopK 知识片段。
组合Prompt模版 + 知识片段 + 问题三部分形成最终的提示词,最后调用大模型推理API获得最终答复。

2.1 嵌入向量模式优点如下:

  1. 不需要对大模型做微调,使用的仍然是大模型的PromptOnly推理能力,所以成本较低;
  2. 客户完全控制向量数据库,可以非常方便对向量数据库中的数据进行增删改查,更加灵活;
  3. 能够在多个大模型之间进行切换, 应用层无需改动,支持多个大模型;
    能够解决大模型输入限制问题;

嵌入向量模式的问题是没有CoT思维链能力,由于引用的是知识片段,无法根据完整知识做推理。

对于大模型的输入限制问题, 目前文心API的输入限制是2K字符, 那么将来输入限制更大以后,是否可以直接使用PromptOnly代替Embedding了呢? 答案是不可以。
主要是考虑成本和延时问题。大模型的计费模式是按照输入输出的token总数计算, Prompt里内容越多成本越高。另外是延时问题,如果Prompt里内容过多,增加了大模型单次处理API调用的工作量,延时也会更高。
大模型支持的上下文在相当长时间内最大也只会到 MB 级别,而向量数据库大小则可轻松突破 GB 级别。

三、微调模型模式(Fine-tune)

微调模式是将外部知识内化到大模型之中,有SFT、RLHF、Prompt tuning、LoRA等方式。
SFT是全量参数微调, 需要的数据量较大(>1w),少量数据有将大模型调“傻”的风险。客户如果只有几十、几百条数据,不建议做SFT。
微调使用的数据除了有数量要求,还要求能覆盖到客户业务的方方面面,还不能包含敏感数据。数据质量将直接影响大模型微调效果,数据准备与预处理,将会是微调模式的主要工作。
除此之外,微调模式的优缺点基本上与嵌入向量模式对应。 微调模式的优点对应嵌入向量模式的缺点, 微调模式的缺点对应了嵌入向量模式的优点。

总结

考虑业务与大模型结合时,优先选择PromptOnly和Embedding,找业务与大模型的结合点,先用起来以后再考虑做大模型微调。1`3

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容