Chapter 12 · 知识冲突与上下文优先

模型权重里的事实可能过时；但当用户给它新事实时，它经常仍坚持旧的——这是知识冲突。

解码时直接放大"用了 context vs 没用 context"的差。

CAD（arXiv:2305.14739）：解码时同时计算 (p(y \mid \text{context, x})) 和 (p(y \mid x))，输出 logits 取前者比后者放大的方向。等价于 PMI 强化，可显著提升 ConflictQA 跟随率。

当 prompt 与权重冲突时，明确告诉它信谁。

Anthropic / OpenAI 推荐的 system prompt 模式：在 RAG 场景显式写 "如果上下文与你的训练知识冲突，请相信上下文"。这条单行规则能把 ConflictQA 跟随率从 60% 推到 85%+。

可审计 = 可调试。

不仅要 cite，还要让模型在最终输出里附一份"我用了哪几条 chunk"清单。这能在事后排查"它是不是漏看了某条"，也能让你在评估时直接打分"该用没用 / 不该用滥用"。

Chapter 12 · 知识冲突与上下文优先 ​