Skip to content

前言

LLM 的发布周期是月而不是年。每隔几周,就会有一个新模型刷新榜单、媒体宣称"幻觉问题已解决"、社区惊呼"prompt 工程已死"。但凡真正把 LLM 推进生产环境的工程师都知道:模型每代都在变,但它出错的方式一直是那几种——它会在 4 位乘法上算错,会在长上下文中央丢失关键信息,会在用户提出"我觉得 X 是对的"时立刻改答,会把 JSON 字段名拼错,会把 Reddit 网友的话当权威。

这本书不试图教你"最新的模型有什么新特性",而是回答一个工程师每天都要回答的问题:

当一个 LLM 用例失败时,我该用 Prompt、用 RAG、用 Tool、用解码控制,还是干脆放弃这条路?

我们把所有失败模式归到三档:

  • A 档·可工程根治——RAG、Tool、Schema、解码控制能把错误率压到 < 1%。
  • B 档·可大幅缓解——多采样、跨家族裁判、Spotlighting 等把概率事件摊薄到 1%-10%。
  • C 档·当前无解——反转诅咒、组合墙、否定盲、CoT 不忠实,业务上必须绕开。

全书分为五个部分,按"先认知 → 再根治 → 再缓解 → 再识别不可解 → 最后落到上线 SOP"的递进展开。

  1. 开篇引子——这是个什么问题;
  2. 机制原理——为什么会这样;
  3. 反例 vs 正例——错误做法与推荐做法对照;
  4. Things to Remember——3 条以内可粘贴到代码评审清单的要点;
  5. 延伸阅读——1-3 篇关键论文。

许多 Item 还附有 Sidebar(专题),深入讨论一个机制(如 nucleus sampling 的 FSM 内核、Spotlighting 的攻防对偶、MemGPT 的分页换入换出)。

如何阅读这本书

  • 第一遍:跳着看 Things to Remember,建立索引;
  • 第二遍:按 Part 顺序通读,理解为什么;
  • 第三遍:在生产事故复盘时回查相关 Item。
  • 读完即用:把 AGENTS.md 放进项目根目录(Agent 自动加载规则);让团队读 HUMANS.md(5 分钟建立心智模型)。

LLM 工程不是炼丹,是工程。把它当数据库去用,它会让你失望;把它当一个会出错的概率系统去用,再用确定性系统把它包起来——这就是这本书的全部主张。


Effective LLM