Skip to content

Chapter 16 · 评估的元问题

Item 44:用 fresh / 私有 holdout 替代经典基准

MMLU 已经不可信了。

核心

Benchmark Data Contamination SurveyarXiv:2406.04244):MMLU、HumanEval、GSM8K 大量泄漏到预训练语料中。新模型在这些基准上的高分有相当一部分是记忆而非泛化。用 LiveBench、LiveCodeBench、自建私有 holdout 才能真实反映能力。

Things to Remember

  • 经典基准只看大致水准,不做最终判断。
  • 用 LiveBench 或自建 holdout 做生产级决策。
  • 私有 holdout 数据永远不要发表 / 公开

Item 45:把模型 version + 日期当作配置项的一部分

"GPT-4" 不是一个版本,是一个变量。

核心

闭源 API 模型在静默更新——同一个 gpt-4o 名字在不同月份性能可能差 5-10%。生产系统必须固定到 dated alias(gpt-4o-2024-08-06),并把它写进配置文件,每次跑评估带上。

Things to Remember

  • 一律用 dated model alias。
  • 所有评估结果必须附 model version + 日期。
  • 监控 silent regression:新版本上线后跑一次 30 分钟体检。

Item 46:配对实验是揭示偏好的唯一可信工具

单 prompt 一次跑,看不出偏好。

核心

LLM 的隐性偏好(位置、长度、自家、谄媚、锚定)只能通过仅差一个变量的配对实验揭示。单点 prompt 测试看不到偏好;100 次配对统计,t 检验或 McNemar 检验才有效。

Things to Remember

  • 任何"偏好"主张必须有配对实验 + 大样本 + 显著性检验支撑。
  • 温度 = 0、固定 seed、变化的是 prompt 变体而不是采样噪声。
  • 评估 vs 调试是两回事——调试可看一次,评估必须 n≥100。

Effective LLM