Chapter 16 · 评估的元问题
Item 44:用 fresh / 私有 holdout 替代经典基准
MMLU 已经不可信了。
核心
Benchmark Data Contamination Survey(arXiv:2406.04244):MMLU、HumanEval、GSM8K 大量泄漏到预训练语料中。新模型在这些基准上的高分有相当一部分是记忆而非泛化。用 LiveBench、LiveCodeBench、自建私有 holdout 才能真实反映能力。
Things to Remember
- 经典基准只看大致水准,不做最终判断。
- 用 LiveBench 或自建 holdout 做生产级决策。
- 私有 holdout 数据永远不要发表 / 公开。
Item 45:把模型 version + 日期当作配置项的一部分
"GPT-4" 不是一个版本,是一个变量。
核心
闭源 API 模型在静默更新——同一个 gpt-4o 名字在不同月份性能可能差 5-10%。生产系统必须固定到 dated alias(gpt-4o-2024-08-06),并把它写进配置文件,每次跑评估带上。
Things to Remember
- 一律用 dated model alias。
- 所有评估结果必须附 model version + 日期。
- 监控 silent regression:新版本上线后跑一次 30 分钟体检。
Item 46:配对实验是揭示偏好的唯一可信工具
单 prompt 一次跑,看不出偏好。
核心
LLM 的隐性偏好(位置、长度、自家、谄媚、锚定)只能通过仅差一个变量的配对实验揭示。单点 prompt 测试看不到偏好;100 次配对统计,t 检验或 McNemar 检验才有效。
Things to Remember
- 任何"偏好"主张必须有配对实验 + 大样本 + 显著性检验支撑。
- 温度 = 0、固定 seed、变化的是 prompt 变体而不是采样噪声。
- 评估 vs 调试是两回事——调试可看一次,评估必须 n≥100。