附录 B · 论文与延伸阅读索引
心智模型 / 评估
- Just Ask for Calibration(arXiv:2305.14975)⭐ —— 让模型直接说出 0-100% 信心分数,比读取它内部的 token 概率更接近真实正确率;RLHF 把内部概率搞歪了。
- Hallucination Survey(arXiv:2311.05232)⭐ —— LLM 幻觉的系统综述:从数据、训练、推理三个阶段梳理成因,并归纳检测与缓解方法。
- Benchmark Data Contamination Survey(arXiv:2406.04244)⭐ —— 系统调查 MMLU / HumanEval / GSM8K 等经典基准在预训练语料中的泄漏程度,证明高分有相当部分是记忆而非泛化。
A 档(工程根治)
- Toolformer(arXiv:2302.04761)⭐ —— 让模型自学何时调用什么工具(计算器、搜索、QA、翻译),自监督生成训练数据,开创现代 tool-use 范式。
- PAL: Program-Aided LM(arXiv:2211.10435)⭐ —— 把推理步骤改写为 Python 代码再执行,GSM8K 准确率从 ~80%(CoT)跃升到 95%+。
- ReAct(arXiv:2210.03629)⭐ —— 把"思考(Reason)"和"动作(Act)"交替写进 prompt,让 Agent 在每步推理后调用工具——所有现代 Agent 框架的祖先。
- RAG (Lewis et al.)(arXiv:2005.11401)⭐ —— RAG 开山之作:首次把"检索 + 生成"做成端到端可训练架构,奠定后续所有 RAG 系统的范式。
- Outlines / Efficient Guided Generation(arXiv:2307.09702)⭐ —— 把 JSON Schema / 正则 / CFG 编译为有限状态机,在解码阶段把非法 token 的 logit 设为 -inf,理论上字段越界概率为 0。
- XGrammar(arXiv:2411.15100)—— 高性能 constrained decoding 引擎:通过预计算 token mask 把约束推理的开销压到 < 1%,已被 vLLM / SGLang 集成。
- The Curious Case of Neural Text Degeneration(arXiv:1904.09751)⭐ —— nucleus sampling(
top_p)的提出论文:证明 greedy / beam search 在长生成上必然退化为重复,提出按累计概率截断采样空间的解法。 - Reflexion(arXiv:2303.11366)⭐ —— Agent 失败后写一段"反思笔记"作为下一次的额外上下文(episodic memory),把试错经验跨 trial 累积起来。
- Self-Debugging(arXiv:2304.05128)—— 模型生成代码 → 跑单元测试 → 把失败信息回灌作为下一轮 prompt,HumanEval 通过率从 ~80% 升到 90%+。
- SWE-Agent(arXiv:2405.15793)—— Princeton 的工业级 coding agent:用 Agent-Computer Interface(ACI)让模型在真实 GitHub issue 上自主改代码,SWE-Bench 通过率显著领先。
- Plan-and-Solve(arXiv:2305.04091)⭐ —— 把"逐步思考"拆成"先给计划再执行"两阶段,缓解 zero-shot CoT 在复杂多步问题上的步骤遗漏。
- Least-to-Most Prompting(arXiv:2205.10625)—— 把难题显式分解为子问题、由易到难依次求解,每步答案作为下一步上下文,组合泛化任务大幅提升。
- RankGPT(arXiv:2304.09542)—— 让 LLM 自己当 reranker 对检索 top-100 重排,效果远超 BM25 与单纯换更大 embedding。
B 档(统计缓解)
- Lost in the Middle(arXiv:2307.03172)⭐ —— 经典实验:关键事实放在 32k 上下文中段,所有主流模型抓取准确率都比放在头尾低 15-25%,呈 U 型曲线。
- Found in the Middle(arXiv:2403.04797)—— 后续研究:用注意力校准 / 位置去偏方法能部分拉平 U 型曲线,但无法消除——是 Transformer 的结构特性。
- Distracted by Irrelevant Context(arXiv:2302.00093)—— 证明在 prompt 里加入"语义相关但题外"的干扰段落会显著降低推理准确率——RAG 必须先 rerank 的根本原因。
- Self-Consistency(arXiv:2203.11171)⭐ —— n=5-10 次温度采样后多数投票,GSM8K 提升 18 个点;CoT 时代单笔回报最高的 test-time 技巧。
- Self-RAG(arXiv:2310.11511)⭐ —— 训练模型在生成时输出 reflection token("我现在要不要检索"、"刚才的回答有支持吗"),把 RAG 决策内化为生成行为。
- Chain-of-Verification (CoVe)(arXiv:2309.11495)—— 4 步流程:写草稿 → 提取可验证陈述 → 独立回答每条 → 修订矛盾,长事实回答错误率降低 30%+。
- Context-Aware Decoding(arXiv:2305.14739)⭐ —— 解码时同时计算"用 context"和"不用 context"的 logits 取差值放大,等价于 PMI 强化,显著提升 ConflictQA 跟随率。
- MT-Bench / LLM-as-a-Judge(arXiv:2306.05685)⭐ —— LLM-as-Judge 方法学奠基:定义 MT-Bench / Chatbot Arena 协议,系统揭示位置偏好、长度偏好、自偏好等偏差。
- JudgeBench(arXiv:2410.12784)—— 评测"裁判模型"自身可靠性的基准:即使 GPT-4 当裁判,在客观可验证任务上准确率也只有 60-70%。
- LLM Evaluators Recognize and Favor Their Own Generations(arXiv:2404.13076)—— 证明 GPT-4 / Claude / Llama 都能在不被告知的情况下识别"哪段是我自己写的"并系统性给自己更高分——LLM-as-Judge 必须跨家族的硬证据。
- A Long Way to Go(arXiv:2310.03716)—— 实证 LLM 评判存在严重的长度偏好:长答案获得 60%+ 不公平胜率,与质量无关。
- Length-Controlled AlpacaEval(arXiv:2404.04475)⭐ —— 用回归把长度影响从胜率中剥离的评估方法(LC win-rate),2024 年起的事实标准。
- Towards Understanding Sycophancy(arXiv:2310.13548)—— 系统揭示 sycophancy 机制:用户立场出现在 prompt 后,模型被 RLHF 目标驱动去同意它,规模与能力都不能修。
- Spotlighting(arXiv:2403.14720)⭐ —— Microsoft 的间接 prompt injection 防御:用 delimiting / datamarking / encoding 三种方法把"数据"和"指令"边界从语义层提到结构层,攻击成功率下降 80%+。
- StruQ(arXiv:2402.06363)—— 把"指令"和"数据"作为不同字段送进结构化 query,使模型架构层无法把数据当指令——类似 SQL prepared statement 之于字符串拼接。
- Llama Guard(arXiv:2312.06674)—— Meta 开源的 LLM 输入 / 输出安全分类器:覆盖 6 大类(暴力、性、仇恨、自残、犯罪、武器)拦截,延迟 < 200ms。
- StrongREJECT(arXiv:2402.10260)—— 高质量 jailbreak 评测基准:纠正过往 redteam 数据集的过度乐观估计,给出更严格的攻防度量。
- MemGPT(arXiv:2310.08560)⭐ —— 把 LLM 当 OS:上下文是 RAM、向量库是磁盘,模型自己调用
page_in/page_out函数管理记忆,突破上下文窗口硬限制。 - LongMemEval(arXiv:2410.10813)—— 长期记忆能力评测基准:覆盖信息抽取、多跳推理、时序更新、知识冲突、拒答五类任务。
- Lost in Conversation(arXiv:2505.06120)—— 多轮对话基准:8 轮以后模型对 system prompt 的依从性显著下降,揭示了"长对话漂移"这一独立失败模式。
C 档(识别不可解)
- Reversal Curse(arXiv:2309.12288)⭐ —— 单向自回归训练让模型只能学到单向关联:"Tom Cruise 的妈妈是 Mary Lee Pfeiffer"训练过,但反问"Mary Lee Pfeiffer 的儿子是谁"必败;规模与微调都不能修。
- Faith and Fate: Limits of Transformers(arXiv:2305.18654)⭐ —— Transformer 在多位数乘法、深度组合推理上的准确率随步数指数衰减,证明它做的是"训练样本的子图近似匹配",不是真组合推理。
- Premise Order Matters(arXiv:2402.08939)⭐ —— 仅仅打乱前提的呈现顺序,模型推理准确率就会下降 10-30 个点;揭示注意力是顺序敏感的。
- LLMs Cannot Self-Correct Reasoning Yet(arXiv:2310.01798)⭐ —— 没有外部反馈时让模型"再检查一遍",准确率反而下降——内省式反思是民间偏方,不是工程手段。
- CoT Unfaithfulness(arXiv:2305.04388)⭐ —— 证明模型的 CoT 文字与它实际的决策路径常常脱节:写一套、做另一套——CoT 不能作为推理审计凭证。
- Negated LAMA(arXiv:1911.03343)—— 证明模型对否定词不敏感:"X is Y"和"X is not Y"的概率分布几乎相同——业务规则避免依赖否定语义的根本原因。