前言
LLM 的发布周期是月而不是年。每隔几周,就会有一个新模型刷新榜单、媒体宣称"幻觉问题已解决"、社区惊呼"prompt 工程已死"。但凡真正把 LLM 推进生产环境的工程师都知道:模型每代都在变,但它出错的方式一直是那几种——它会在 4 位乘法上算错,会在长上下文中央丢失关键信息,会在用户提出"我觉得 X 是对的"时立刻改答,会把 JSON 字段名拼错,会把 Reddit 网友的话当权威。
这本书不试图教你"最新的模型有什么新特性",而是回答一个工程师每天都要回答的问题:
当一个 LLM 用例失败时,我该用 Prompt、用 RAG、用 Tool、用解码控制,还是干脆放弃这条路?
我们把所有失败模式归到三档:
- A 档·可工程根治——RAG、Tool、Schema、解码控制能把错误率压到 < 1%。
- B 档·可大幅缓解——多采样、跨家族裁判、Spotlighting 等把概率事件摊薄到 1%-10%。
- C 档·当前无解——反转诅咒、组合墙、否定盲、CoT 不忠实,业务上必须绕开。
全书分为五个部分,按"先认知 → 再根治 → 再缓解 → 再识别不可解 → 最后落到上线 SOP"的递进展开。
- 开篇引子——这是个什么问题;
- 机制原理——为什么会这样;
- 反例 vs 正例——错误做法与推荐做法对照;
- Things to Remember——3 条以内可粘贴到代码评审清单的要点;
- 延伸阅读——1-3 篇关键论文。
许多 Item 还附有 Sidebar(专题),深入讨论一个机制(如 nucleus sampling 的 FSM 内核、Spotlighting 的攻防对偶、MemGPT 的分页换入换出)。
如何阅读这本书:
LLM 工程不是炼丹,是工程。把它当数据库去用,它会让你失望;把它当一个会出错的概率系统去用,再用确定性系统把它包起来——这就是这本书的全部主张。