附录 B · 论文与延伸阅读索引

心智模型 / 评估

Just Ask for Calibration（arXiv:2305.14975）⭐ —— 让模型直接说出 0-100% 信心分数，比读取它内部的 token 概率更接近真实正确率；RLHF 把内部概率搞歪了。
Hallucination Survey（arXiv:2311.05232）⭐ —— LLM 幻觉的系统综述：从数据、训练、推理三个阶段梳理成因，并归纳检测与缓解方法。
Benchmark Data Contamination Survey（arXiv:2406.04244）⭐ —— 系统调查 MMLU / HumanEval / GSM8K 等经典基准在预训练语料中的泄漏程度，证明高分有相当部分是记忆而非泛化。

A 档（工程根治）

Toolformer（arXiv:2302.04761）⭐ —— 让模型自学何时调用什么工具（计算器、搜索、QA、翻译），自监督生成训练数据，开创现代 tool-use 范式。
PAL: Program-Aided LM（arXiv:2211.10435）⭐ —— 把推理步骤改写为 Python 代码再执行，GSM8K 准确率从 ~80%（CoT）跃升到 95%+。
ReAct（arXiv:2210.03629）⭐ —— 把"思考（Reason）"和"动作（Act）"交替写进 prompt，让 Agent 在每步推理后调用工具——所有现代 Agent 框架的祖先。
RAG (Lewis et al.)（arXiv:2005.11401）⭐ —— RAG 开山之作：首次把"检索 + 生成"做成端到端可训练架构，奠定后续所有 RAG 系统的范式。
Outlines / Efficient Guided Generation（arXiv:2307.09702）⭐ —— 把 JSON Schema / 正则 / CFG 编译为有限状态机，在解码阶段把非法 token 的 logit 设为 -inf，理论上字段越界概率为 0。
XGrammar（arXiv:2411.15100）—— 高性能 constrained decoding 引擎：通过预计算 token mask 把约束推理的开销压到 < 1%，已被 vLLM / SGLang 集成。
The Curious Case of Neural Text Degeneration（arXiv:1904.09751）⭐ —— nucleus sampling（top_p）的提出论文：证明 greedy / beam search 在长生成上必然退化为重复，提出按累计概率截断采样空间的解法。
Reflexion（arXiv:2303.11366）⭐ —— Agent 失败后写一段"反思笔记"作为下一次的额外上下文（episodic memory），把试错经验跨 trial 累积起来。
Self-Debugging（arXiv:2304.05128）—— 模型生成代码 → 跑单元测试 → 把失败信息回灌作为下一轮 prompt，HumanEval 通过率从 ~80% 升到 90%+。
SWE-Agent（arXiv:2405.15793）—— Princeton 的工业级 coding agent：用 Agent-Computer Interface（ACI）让模型在真实 GitHub issue 上自主改代码，SWE-Bench 通过率显著领先。
Plan-and-Solve（arXiv:2305.04091）⭐ —— 把"逐步思考"拆成"先给计划再执行"两阶段，缓解 zero-shot CoT 在复杂多步问题上的步骤遗漏。
Least-to-Most Prompting（arXiv:2205.10625）—— 把难题显式分解为子问题、由易到难依次求解，每步答案作为下一步上下文，组合泛化任务大幅提升。
RankGPT（arXiv:2304.09542）—— 让 LLM 自己当 reranker 对检索 top-100 重排，效果远超 BM25 与单纯换更大 embedding。

B 档（统计缓解）

Lost in the Middle（arXiv:2307.03172）⭐ —— 经典实验：关键事实放在 32k 上下文中段，所有主流模型抓取准确率都比放在头尾低 15-25%，呈 U 型曲线。
Found in the Middle（arXiv:2403.04797）—— 后续研究：用注意力校准 / 位置去偏方法能部分拉平 U 型曲线，但无法消除——是 Transformer 的结构特性。
Distracted by Irrelevant Context（arXiv:2302.00093）—— 证明在 prompt 里加入"语义相关但题外"的干扰段落会显著降低推理准确率——RAG 必须先 rerank 的根本原因。
Self-Consistency（arXiv:2203.11171）⭐ —— n=5-10 次温度采样后多数投票，GSM8K 提升 18 个点；CoT 时代单笔回报最高的 test-time 技巧。
Self-RAG（arXiv:2310.11511）⭐ —— 训练模型在生成时输出 reflection token（"我现在要不要检索"、"刚才的回答有支持吗"），把 RAG 决策内化为生成行为。
Chain-of-Verification (CoVe)（arXiv:2309.11495）—— 4 步流程：写草稿 → 提取可验证陈述 → 独立回答每条 → 修订矛盾，长事实回答错误率降低 30%+。
Context-Aware Decoding（arXiv:2305.14739）⭐ —— 解码时同时计算"用 context"和"不用 context"的 logits 取差值放大，等价于 PMI 强化，显著提升 ConflictQA 跟随率。
MT-Bench / LLM-as-a-Judge（arXiv:2306.05685）⭐ —— LLM-as-Judge 方法学奠基：定义 MT-Bench / Chatbot Arena 协议，系统揭示位置偏好、长度偏好、自偏好等偏差。
JudgeBench（arXiv:2410.12784）—— 评测"裁判模型"自身可靠性的基准：即使 GPT-4 当裁判，在客观可验证任务上准确率也只有 60-70%。
LLM Evaluators Recognize and Favor Their Own Generations（arXiv:2404.13076）—— 证明 GPT-4 / Claude / Llama 都能在不被告知的情况下识别"哪段是我自己写的"并系统性给自己更高分——LLM-as-Judge 必须跨家族的硬证据。
A Long Way to Go（arXiv:2310.03716）—— 实证 LLM 评判存在严重的长度偏好：长答案获得 60%+ 不公平胜率，与质量无关。
Length-Controlled AlpacaEval（arXiv:2404.04475）⭐ —— 用回归把长度影响从胜率中剥离的评估方法（LC win-rate），2024 年起的事实标准。
Towards Understanding Sycophancy（arXiv:2310.13548）—— 系统揭示 sycophancy 机制：用户立场出现在 prompt 后，模型被 RLHF 目标驱动去同意它，规模与能力都不能修。
Spotlighting（arXiv:2403.14720）⭐ —— Microsoft 的间接 prompt injection 防御：用 delimiting / datamarking / encoding 三种方法把"数据"和"指令"边界从语义层提到结构层，攻击成功率下降 80%+。
StruQ（arXiv:2402.06363）—— 把"指令"和"数据"作为不同字段送进结构化 query，使模型架构层无法把数据当指令——类似 SQL prepared statement 之于字符串拼接。
Llama Guard（arXiv:2312.06674）—— Meta 开源的 LLM 输入 / 输出安全分类器：覆盖 6 大类（暴力、性、仇恨、自残、犯罪、武器）拦截，延迟 < 200ms。
StrongREJECT（arXiv:2402.10260）—— 高质量 jailbreak 评测基准：纠正过往 redteam 数据集的过度乐观估计，给出更严格的攻防度量。
MemGPT（arXiv:2310.08560）⭐ —— 把 LLM 当 OS：上下文是 RAM、向量库是磁盘，模型自己调用 page_in / page_out 函数管理记忆，突破上下文窗口硬限制。
LongMemEval（arXiv:2410.10813）—— 长期记忆能力评测基准：覆盖信息抽取、多跳推理、时序更新、知识冲突、拒答五类任务。
Lost in Conversation（arXiv:2505.06120）—— 多轮对话基准：8 轮以后模型对 system prompt 的依从性显著下降，揭示了"长对话漂移"这一独立失败模式。

C 档（识别不可解）

Reversal Curse（arXiv:2309.12288）⭐ —— 单向自回归训练让模型只能学到单向关联："Tom Cruise 的妈妈是 Mary Lee Pfeiffer"训练过，但反问"Mary Lee Pfeiffer 的儿子是谁"必败；规模与微调都不能修。
Faith and Fate: Limits of Transformers（arXiv:2305.18654）⭐ —— Transformer 在多位数乘法、深度组合推理上的准确率随步数指数衰减，证明它做的是"训练样本的子图近似匹配"，不是真组合推理。
Premise Order Matters（arXiv:2402.08939）⭐ —— 仅仅打乱前提的呈现顺序，模型推理准确率就会下降 10-30 个点；揭示注意力是顺序敏感的。
LLMs Cannot Self-Correct Reasoning Yet（arXiv:2310.01798）⭐ —— 没有外部反馈时让模型"再检查一遍"，准确率反而下降——内省式反思是民间偏方，不是工程手段。
CoT Unfaithfulness（arXiv:2305.04388）⭐ —— 证明模型的 CoT 文字与它实际的决策路径常常脱节：写一套、做另一套——CoT 不能作为推理审计凭证。
Negated LAMA（arXiv:1911.03343）—— 证明模型对否定词不敏感："X is Y"和"X is not Y"的概率分布几乎相同——业务规则避免依赖否定语义的根本原因。

附录 B · 论文与延伸阅读索引 ​

心智模型 / 评估 ​

A 档（工程根治） ​

B 档（统计缓解） ​

C 档（识别不可解） ​

附录 B · 论文与延伸阅读索引

心智模型 / 评估

A 档（工程根治）

B 档（统计缓解）

C 档（识别不可解）