Chapter 16 · 评估的元问题

Item 44：用 fresh / 私有 holdout 替代经典基准

MMLU 已经不可信了。

核心

Benchmark Data Contamination Survey（arXiv:2406.04244）：MMLU、HumanEval、GSM8K 大量泄漏到预训练语料中。新模型在这些基准上的高分有相当一部分是记忆而非泛化。用 LiveBench、LiveCodeBench、自建私有 holdout 才能真实反映能力。

Things to Remember

经典基准只看大致水准，不做最终判断。
用 LiveBench 或自建 holdout 做生产级决策。
私有 holdout 数据永远不要发表 / 公开。

Item 45：把模型 version + 日期当作配置项的一部分

"GPT-4" 不是一个版本，是一个变量。

核心

闭源 API 模型在静默更新——同一个 gpt-4o 名字在不同月份性能可能差 5-10%。生产系统必须固定到 dated alias（gpt-4o-2024-08-06），并把它写进配置文件，每次跑评估带上。

Things to Remember

一律用 dated model alias。
所有评估结果必须附 model version + 日期。
监控 silent regression：新版本上线后跑一次 30 分钟体检。

Item 46：配对实验是揭示偏好的唯一可信工具

单 prompt 一次跑，看不出偏好。

核心

LLM 的隐性偏好（位置、长度、自家、谄媚、锚定）只能通过仅差一个变量的配对实验揭示。单点 prompt 测试看不到偏好；100 次配对统计，t 检验或 McNemar 检验才有效。

Things to Remember

任何"偏好"主张必须有配对实验 + 大样本 + 显著性检验支撑。
温度 = 0、固定 seed、变化的是 prompt 变体而不是采样噪声。
评估 vs 调试是两回事——调试可看一次，评估必须 n≥100。