我们反复观察到,近几年AI应用产品和技术概念,一浪一浪地澎湃,但是跑出的的高影响力应用只有chatbot、智能搜索、coding software、某些少数agent这几类产品,透过这些表象,我们观察到一个反复出现的认知偏差:许多人将LLM应用等同于"套壳ChatGPT",将AI产品化理解为"界面包装"。这种简化忽略了LLM作为计算范式的本质变化——它不仅是交互界面的升级,更是信息处理逻辑的重构。
基于产业实践和多年产品经理经验,我来梳理分享我的解剖和抽象、分析,尝试梳理一条清晰的演进路径,基于实际的技术约束和商业逻辑,而非趋势预测。
第一层:Completion as Feature(功能增强)
这是最直接的应用形态:在现有产品中嵌入LLM的文本能力,作为特定功能的实现手段。
技术实质
- 输入:用户query + 预设prompt模板 + 可选的上下文片段
典型场景
关键约束
- 延迟敏感
- 输出可控:需要结构化输出(JSON mode)或严格的格式约束
- 成本可预测:按token计费模式下,单次调用的成本必须可估算
产品化核心 这一层的竞争不在LLM本身,而在场景定义和上下文工程。同样的completion能力,能否在正确的时机、基于正确的上下文、以正确的格式呈现,决定了功能价值。
演进瓶颈 当场景需要多步骤推理、外部信息获取、或用户意图的复杂解析时,单次completion的上下文窗口和推理深度成为硬约束。这推动了向第二层的演进。
第二层:Workflow Orchestration(流程编排)
当任务无法通过单次LLM调用完成时,需要显式定义多步骤的处理流程。这不是AI的自主决策,而是工程师预设的确定性路径。
技术实质
- 每个节点可能是:LLM调用、传统代码逻辑、API调用、或人工审核点
- 控制流(顺序、分支、循环)由代码定义,而非LLM决定
典型场景
- 自动化报告生成:数据查询 → 数据清洗 → 分析洞察 → 文本撰写 → 格式渲染
- 复杂表单填写:意图识别 → 信息收集(多轮)→ 校验规则 → 提交执行
- 内容审核pipeline:机器预审 → 疑似人工复核 → 规则引擎 → 最终决策
关键设计决策
- 粒度划分:步骤应该多细?太粗则单次LLM负担过重,太细则流程冗长、延迟累积
- 状态管理:步骤间传递什么信息?原始数据、中间结论、还是完整上下文?
- 失败处理:某一步骤失败时,是重试、回退、人工介入,还是优雅降级?
- 人机协作点
与RAG的关系 RAG(检索增强生成)通常作为workflow中的一个节点存在:检索 → 重排序 → 注入上下文 → LLM生成。它解决的是"静态知识"问题,而非"动态流程"问题。
产品化核心 这一层的价值在于可靠性和可维护性。通过显式流程,团队可以:
演进触发点 当流程的变体过多、分支逻辑过于复杂、或需要处理大量边缘情况时,显式workflow的维护成本急剧上升。此时,让LLM自主决定"下一步做什么"可能更经济,这推动了向第三层的演进。
第三层:Agent with Tool Use(工具增强的自主体)
这一层的关键转变是决策权的部分让渡:不再由工程师预设每一步,而是由LLM基于当前状态和目标,自主选择工具和行动序列。
技术实质
- 核心循环:推理(reasoning)→ 行动(action/工具调用)→ 观察(observation)→ 重复
- LLM的输出不仅包含内容生成,还包含结构化决策(调用哪个工具、传入什么参数)
- 工具描述(tool description)成为关键接口设计
- 终止条件由LLM判断或外部约束(如最大步数、成本上限)
典型场景
- 数据分析Agent:根据问题自动选择查询方式、生成代码、执行、解释结果
- 软件调试Agent:读取错误日志、定位代码、提出修复方案、验证修复
关键工程挑战
- 工具设计的契约
- 工具描述必须足够清晰,让LLM理解其用途、参数、返回值
- 上下文窗口的管理
- 可控性与安全
- 可观测性
- 需要记录完整的"思维链"(chain-of-thought)用于审计
- 失败案例的归因分析(工具描述不清?LLM理解错误?工具本身故障?)
与Workflow的本质区别
产品化核心 这一层的价值在于处理开放性问题的能力,但代价是工程复杂度的显著上升。成功的产品化需要:
演进边界 单Agent的上下文窗口和推理能力仍有上限。当任务需要多领域专业知识、并行探索多个方案、或涉及复杂的多方协调时,单Agent架构面临瓶颈,这推动了向第四层的演进。
第四层:Multi-Agent Coordination(多智能体协调)
这一层不是简单的"多个LLM实例",而是多个专业化认知角色的实例化与协作。
技术实质
- Agents之间通过结构化消息(而非自由文本)进行通信
- 可能涉及层级结构(管理者-执行者)或扁平协作(对等协商)
典型场景
- 软件工程团队模拟:产品经理Agent → 架构师Agent → 开发者Agent → 测试Agent
- 研究协作:数据收集Agent → 分析Agent → 写作Agent → 审核Agent
- 复杂决策:多个专家Agent分别从不同角度评估,最终Aggregator整合结论
关键工程挑战
- 集中式(Orchestrator调度)vs 分布式(自主协商)
- 多Agent系统的行为 emergent(涌现)特性强
- 需要新的可观测性工具(Agent间的消息流、决策时序可视化)
务实观点 Multi-Agent目前仍处于实验性阶段。大多数生产系统仍可通过单Agent + 良好工具设计满足需求。引入Multi-Agent应基于明确的必要性:
而非为了"架构先进性"而引入。
演进路径的决策逻辑
这四层不是替代关系,而是适用场景的分化。选择哪一层应基于以下维度:
任务确定性
- 低确定性/探索性 → Agent(扩展工具集)或 Multi-Agent
延迟容忍度
- 低延迟(秒级)→ Completion 或简单Workflow
- 中延迟(分钟级)→ Workflow 或 Agent
- 高延迟(可异步)→ Agent 或 Multi-Agent
成本敏感度
可解释性要求
- 可接受黑盒 → Multi-Agent(聚焦结果质量)
维护能力
- 小团队/快速迭代 → 从Completion或简单Workflow开始
- 中等工程团队 → Agent(需要工具开发和prompt调优)
- 专业平台团队 → 可探索Multi-Agent(需要分布式系统经验)
产品化的共同挑战
无论哪一层,以下工程问题始终存在:
Context Engineering(上下文工程)
Prompt Management(提示管理)
Evaluation(效果评估)
- 在线评估:用户反馈、人工抽检、代理指标(如任务完成率)
- 体验评估:推理速度、输出可靠性、置信度、幻觉控制、安全性
Cost Optimization(成本优化)
对"LLM Inside"产品化的务实判断
当前市场存在两种认知偏差:
过度简化:认为LLM只是API调用,包装即产品。忽略了上下文工程、流程设计、评估体系的深度工程工作。
过度复杂:追求Agent的"自主性"或Multi-Agent的"智能涌现",在基础workflow尚未跑通时引入不必要的架构复杂度。
更可能的路径是:从清晰的场景出发,选择刚好够用的架构层级,在真实用户反馈中迭代演进。多数成功的"LLM Inside"产品,其竞争力不在于使用了Agent或多Agent,而在于:
- 对特定领域上下文的深度理解(什么信息该进prompt)
- 对失败模式的优雅处理(什么情况下fallback到人工)
- 对成本和效果的精细平衡(何时用强模型、何时用弱模型)
技术架构的选择应服务于产品目标,而非相反。
LLM应用的演进路径
本质上是"控制与灵活性"的权衡光谱。从Completion到Multi-Agent,工程师对执行路径的控制逐渐减弱,系统处理开放问题的能力逐渐增强。
没有 universally better 的架构,只有与场景匹配的选择。产品化的成功,取决于能否在特定约束下(延迟、成本、可靠性)交付一致的用户价值。
这条路径的终点不是"更智能的Agent",而是"更可靠的智能系统"——智能是手段,可靠才是产品。