LLM火了,但通用大模型最终只可能像操作系统一样,只有少数几个玩家能活下来。于是垂直大模型又火了,但垂直大模型可能压根是个伪命题。
为什么你觉得需要垂直大模型呢?因为通用大模型在某个具体的领域,知识没有深度对吧?那么其实有三个思路可以解决,成本从低到高依次是:
1、RAG,外挂一个本地知识库。RAG其实是没有推理能力的,只有检索能力。然后通过LLM把检索出来的本地知识库片断以说人话的方式说给用户。成本低。
2、训练一个小模型,然后用tools的方式,被LLM调用。小模型不用那么多参数,甚至不用预训练,直接用打标数据训练一个专项的模型。比如IBM的沃森,就算今天有了大模型,它仍然只需要做个小模型就好,参数顶天了上万个够不够?小模型有垂直领域知识,有推理能力,成本也不算高,而且可维护性可扩展性上都和LLM解耦了。是最佳实践了吧。
3、基于LLM基座,加入垂直领域的预训练、微调和增强训练,得到一个垂直大模型。成本很大啊,训练成本很大,哪怕是Lora,而且有可能让LLM基座造成灾难性遗忘,更让人头大的是,如果LLM基座升级了怎么办?要基于新基座再重新训练垂直大模型吗?调岀来的结果是好是坏未知,毕竟基座那么多参数是黑盒,调参就是摸彩票啊。另一个值得高度重视的问题是,fine tuning和传统的打标数据小模型完全不是一回事,fine tuning的作用更多的是sample打样,引导LLM从pre-train积攒的信息,以更可控的方式输出。fine tuning是重质不重量的,不需要太多样本。LLM本质上还是文字接龙,对于严肃的场景,它是完全不如传统的打标数据小模型可靠的,比如医疗、无人驾驶,你敢拿命来玩吗?
反思一下出发点:我们为什么需要LLM基座呢?只是因为LLM的交互方式更加接近自然语言交流对吧?我们要的是它的NLP、多模交互、情感识别等等基础能力对吧?那么1、2完全可以达到目的啊,成本低还没有任何负作用。所以,垂直大模型会不会压根就是伪命题?
AI的未来在哪里?或者说,如何避开和chatgpt为首的基座大模型正面竞争?
RAG不是。RAG是最容易上手的方向,本地知识库没什么门槛,应用场景也很浅。RAG的地位类似于web1.0的cms一样,是个LLM工程师就得会的基本功。
AI agent是。function call是个好东西,多模交互是个好东西,ReAct更是个好东西。有了它们就有了贾维思的条件,连上硬件更可以得到幻视!问题的关键是,如果chatgpt这种基座大模型公司自己下场做agent呢?注意,chatgpt有最聪明的LLM,通过gpts它还有最全的tools,gpt4-o证明它还有最强的多模交互。做通用型的agent就像做通用大模型一样,一定干不过chatgpt这种公司。只能往这几个方向深入下去,才能立住脚:
1、软硬结合,通过丰富多样的硬件传感器拉开和通用agent能力的差距,无论是对真实世界的感知力,还是action能力,都是硬件的强项。LLM再怎么发展,触手也仅限在缸中之脑上,chatgpt的优势无法延伸过来。关键点在硬件传感器上。
马斯克的人形机器人就符合这个方向。从贾维思到幻视,次元壁就这么突破了。
2、垂直领域私人助理。在长期memery、RAG和定制action的联合作用下,让agent既具备垂直领域能力,同时还知道用户的长期个人档案,不仅是行业专家,还特别了解你懂你。而且2和1不冲突,叠加起来威力更惊人。
下一代的windows和iphone都在朝这个方向推进,让我们设想一下:在本地记录用户的行为并保存下来,最强memory!让用户和操作系统之间的交互不再是stateless;而且ReAct思想之下,所有的software都可以api接口化,可以是本地api,也可以是网络api,直接在操作系统级别运行tools。微软、苹果、google这种公司可以直接在操作系统层面截胡agent,比gpts还可怕,所以chatgpt自己成为系统级入口肯定是势在必行的,gpt4-o的多模交互和实时性响应也证明它们确实有成为系统级入口的资本。
我们普通公司肯定是挤不进系统级入口这个赛道的。但包括chatgpt在内的操作系统、准操作系统们都没法在垂直方向上深挖。我们只需在应用层做垂直agent即可。通过树莓派之类的做个独立于操作系统的小而美硬件也是个方向。
3、多agent合作,集团作战。多个垂直agent如果合作起来,会发生什么化学反应?道生一,一生二,二生三,三生万物,众妙之门。
这是最让人兴奋的方向,因为想象力才是唯一天花板。想想看,你的erp、oa直接变成了虚拟员工,采购啊、hr啊都可以裁了。photoshop、eclipse、axure、jira变成设计师、程序员、产品经理和项目经理,it外包都省了。以前编程是面向对象编程,以后是面向agent编程。
福特说的“我需要的是一双手,结果得到了一个人”问题就可以解决了。比流水线还流水线。
多agent可以是虚拟的一套系统,只服务于电子世界,也可以连上硬件服务于现实世界。多agent的关键是对业务的深度理解,既是挑战也是壁垒。
上面提到的123并不冲突,可以组合。LLM的发展很快,垂直大模型方向不对,属于不动脑子地蹭热点。而RAG只是个hello world,真正的精彩是见证下一代操作系统(LLM作为用户入口,和应用层基座),以及下一代应用(上文提到的123)。我很期待,也很想恭身入局,问题是,总被挑战廉颇老矣尚能饭否。能。