哈斯日志
纪录我们在网路上奔波的历程!
病梅之喻与时下LLM应用的路径偏差
星期二, 六月 16, 2026

 清人病梅馆记有言:“梅以曲为美,直则无姿。”人为扭曲其本性,以合一时之审美,终至“病梅”满园。这一隐喻放置于当下大模型(LLM)应用生态,竟有惊人的映照意义——技术路径的繁复、方法论的佶屈聱牙,正在替代“效果与效用”成为评价核心,形成一种新的“技术审美偏执”。

每天看到大量的X、github上大量上的新方法新项目,演化缭乱,导致我们不自觉地产生一种错觉,了解几个方法的名词就以为能掌握和驾驭LLM应用,亦或者,总有新方案我的方案对吗?不厌其烦地繁复是有效的进化路径吗?

方法崇拜取代结果导向

当前LLM应用领域,存在一个显著结构性偏差:

  • 复杂性崇拜
    多层Agent架构、链式调用(Chain-of-Thought)、工具编排、RAG叠加RAG,形成“技术堆栈竞赛”。
  • 表达异化
    prompt设计趋向晦涩、冗长,甚至形成“提示词玄学”,脱离业务语境。从function call设计到context tuning,从agent.md到skills组合
  • 评价错位
    讨论焦点从“是否解决问题”转向“是否用了先进方法”。

这与“病梅”如出一辙:原本自然生长、以结果为导向的系统,被人为塑形,服务于一种“技术优雅”的幻觉。

根本原因的三重驱动的系统性偏差

  1. 认知层:技术可见性偏好

    简单有效的方案往往“不可见”,而复杂系统更容易被展示、被理解为“有价值”。这导致从业者倾向于过度设计,以强化自身的技术存在感。
  2. 激励层:展示与传播机制扭曲

    开源社区、社交媒体与技术分享环境,更容易传播“复杂架构图”而非“简单有效案例”,从而形成路径依赖。
  3. 工程层:工具过剩与组合冲动

    LLM生态中工具链爆炸(LangChain、AutoGen、各种Agent框架),降低了组合门槛,却提高了“过度工程化”的概率。

本质:从“问题求解”到“形式拟合”的滑移

这一现象本质上是目标函数的偏移:

  • 原目标:最大化实际问题的解决效率与经济性
  • 现实目标:最大化技术表达的复杂度与新颖性

当优化目标从“现实问题”转向“形式结构”,系统就不再是为“用”,而是为“看”。正如病梅——其存在的意义,从“生长”转变为“被观赏”。

三类实际损失

  • ROI塌陷
复杂架构带来算力成本、维护成本,却未显著提升效果。
  • 可迁移性下降
过度定制化prompt与流程难以复用。
  • 认知污染
误导后来者,将“复杂=先进”内化为行业共识。

反思:回归“未病之梅”的方法论

要避免“LLM病梅化”,需要在方法论上进行反向校正:

  1. 效果优先原则

    任何设计,必须先验证“是否显著提升任务完成质量”,再讨论方法。
  2. 最小充分复杂度

    用最简单的方法达到目标,而非用最复杂的方法展示能力。
  3. 任务本体建模优先于技术选型

    先抽象问题结构(输入-约束-输出),再决定是否需要RAG、Agent或微调。
  4. 可解释的简洁性

    优秀方案应能被清晰解释,而非依赖“黑箱复杂性”。

进一步思考:从“病梅”到“生态修复”

如果将LLM应用视为一个生态系统,那么当前的问题不是个体偏差,而是系统性偏移。修复路径包括:

  • 评价体系重构
    :以业务指标(转化率、准确率、成本)为核心
  • 案例导向传播
    :强化“简单有效”的最佳实践传播
  • 工程纪律建立
    :引入类似软件工程中的KISS原则

龚自珍借病梅讽刺的是审美的异化,而今日之LLM应用,则是技术理性的异化。
当“曲”被误认为“美”,“复杂”被误认为“先进”,我们便正在培育一片新的“病梅园”。

真正有价值的系统,应如未病之梅——顺其性、得其用、成其果。

查看全文 →
六月 16, 2026 · loverty ·
包裹(搜索/归档页会按文章条数重复输出 canonical) --> 哈斯日志
哈斯日志
纪录我们在网路上奔波的历程!
结构性消歧,还是概率性调参:LLM 产品优化的分水岭
星期四, 六月 11, 2026

 有一个判断我最近越来越明确:

LLM 产品优化这件事,本质上在分叉。

不是“效果好不好”,而是——你到底在改什么。

是结构,还是概率。


我一开始其实也没意识到这个问题。很多所谓的“优化”,看起来都很合理,比如 prompt 调整、few-shot 补充、system prompt 细化、甚至加一点 heuristic rule。短期看,效果是提升的,有时候还挺明显。

但我后来反过来看这些工作,有点不太对劲。

它们大多数,其实是在“挤概率”。

就是:在当前模型的概率分布上,通过提示词、上下文组织、采样参数,去让某些输出更容易被采出来。

这类优化有个隐含前提——模型本身的能力边界是固定的,你只能在它已有的分布里调权重。

问题也在这里。

如果下一代模型来了,这个分布变了,你之前“挤”的那些局部概率,其实没有任何继承性。甚至很多时候是反向的——你之前的 prompt hack,在新模型上反而变成 noise。

这件事我见过太多次了。


换个角度说。

概率性优化,本质上是在“顺着模型的偶然性工作”。
结构性消歧,是在“对抗模型的不确定性”。

这两个方向,长期结果完全不一样。


我现在越来越倾向于把 LLM 产品问题,拆成一个更底层的判断:

用户的意图,是不是在进入模型之前就已经被“确定”了?

如果没有,那你后面做的一切 prompt engineering,本质上都是在赌。

赌模型能不能在一个模糊输入下,恰好走到你想要的那条路径。

这件事短期是可用的,但不可积累。


我反而觉得,真正有积累价值的,是“结构性消歧”。

这个词我也是后来才慢慢想清楚的。

不是让模型更聪明,而是让输入更“单义”。

比如:

  • 把一个模糊意图拆成明确的 schema

  • 把自然语言 query 映射到结构化 slot

  • 把任务拆成明确的中间状态(state machine / workflow)

  • 把多轮对话收敛成一个可执行的上下文状态

这些事情,看起来不像“AI能力提升”,甚至有点“传统软件工程味”。

但我现在反而觉得,这是 LLM 产品的核心护城河。


这里有个反直觉点。

很多人会觉得:模型越来越强,这些结构是不是就不重要了?

我一开始也这么想。

但后来发现刚好相反。

模型越强,它的“可行路径”越多,不确定性反而更高。
如果没有结构约束,它更容易“合理但不对”。

这点在复杂任务里特别明显。


再说一个我自己踩过的坑。

我们曾经在forge产品开发的一个场景里,通过 prompt 精调,把成功率从 60% 提到了 85%。当时觉得已经很不错了。

但过了一段时间,基础模型升级之后,这个 prompt 直接掉到了 70%,而且还不稳定。

后来我们换了个思路——不是调 prompt,而是把输入拆成结构化字段,再做一次意图归一。

结果是:在旧模型上 80%,新模型上 90%+,而且几乎不需要改。

那一刻我才意识到:
之前那 25% 的提升,其实是“借来的”。


本质上,概率性优化是在做“局部最优解”。
结构性消歧是在改变“问题本身的解空间”。

这两者的时间尺度完全不一样。

前者是版本级的。
后者是范式级的。


如果再往下抽象一点,其实就是:

你是在优化“模型行为”,还是在优化“系统约束”。

优化模型行为,本质上是依赖模型。
优化系统约束,本质上是在定义模型。

这两者谁会被下一代模型覆盖,其实答案很明显。


当然,我不是说概率性优化没有价值。

它在很多阶段是必要的,尤其是 MVP 阶段,你不可能一开始就把结构设计到位。

但问题在于,大多数团队会停在这里。

因为它“见效快”。

而结构性消歧,前期是慢的,甚至是反直觉的——你会感觉在“绕远路”。

但如果你不走这一步,你其实没有在做产品,只是在调模型。


这里其实对应一个更大的分水岭。

有些团队,本质上是在做“模型适配层”。
有些团队,在做“AI-native系统”。

前者的价值,会被模型吃掉。
后者的价值,会随着模型增强而放大。


我现在会用一个很简单的标准来判断一项优化有没有长期价值:

如果明天模型换了,这个优化还在不在?

如果答案是不在,那它大概率只是概率性优化。

如果答案是还在,甚至更强,那它才可能是结构性的。


写到这里,其实有点不太想收束。

因为这个问题我自己也还在反复调整判断。

但有一个方向我基本确定了:

LLM 产品的核心,不在“让模型更会做事”,
而在“让问题更少歧义”。

前者是幻觉,后者才是工程。

查看全文 →
六月 11, 2026 · loverty ·

AI助手

你好!我是哈斯日志的AI助手

我可以基于当前页面内容回答你的问题。

💡 首次使用可能需要等待模型加载(约20-30秒)

有什么想了解的吗?
刚刚