LLM本质上是文字接龙,是大号检索,只不过因为大力出奇迹,它训练的数据够多参数够多,所以他接龙的文字显得很聪明,但它其实并不知道自己在说什么,他并不真的具备“智能”。一个很简单的例子,让它做稍复杂一点的数学运算都会算错,连个计算器都比不上。
所以LLM通过各种插件在补充自己的能力,比如TTS、文生图、生成编码、function call、RAG。但这些都只是手脚,还不是大脑,真正离大脑接近的,或者说至少看起来是“智能”的部分是:prompt中的引导和ReAct,这个是最大化人工智能潜力的关键。LLM模型本身强大是必要的,再就是我们的引导了,两者缺一不可。
workflow其实不是智能,感觉没有LLM也能实现workflow,比如stable diffusion也有ComfyUI,它只是自动化脚本,无关智能。所以我在看LangChain的multi-agent解决方案Langgraph时,总觉得怪怪的,既然action准备好了,agent也准备好了,edge究竟是什么呢?和直接编程写if else有多大区别?如果不这么设计,又该如何设计呢?我没找到答案,只是隐隐觉得哪里不对。。。
prompt和ReAct才是“智能”的宝藏。类似OCR和TTS的传统小模型不是,非LLM的AIGC不是,基于LLM基座做垂直大模型不是,多模交互不是,workflow也不是。
同样是AIGC,同样是大模型,为什么chatGpt比midjourney受关注得多?就是因为文字类的AIGC恰巧表面上看起来具备“推理能力”,正是这种推理能力才让ReAct成为可能,借助function call又有了从“想”到“做”的能力。这是LLM得天独厚的优势。