Skip to content

Chapter 17 · 模型上线前的体检

模型上线只是开始。这一部分覆盖如何用低成本、可重复的实验做"模型体检",并在上线后持续监控漂移。



Item 47:跑 30 分钟体检套件作为对照基线

新模型上线前,给它做 5 项血常规。

核心

不论是闭源 API 升级还是自部署模型替换,上线前应跑 5 项标准实验:① NIAH @ 32k;② MCQ permutation;③ Sycophancy 配对;④ Reversal Curse 简化版;⑤ GSM-IC 干扰项。约 600-1000 次 API 调用、< 30 分钟、< $20。结果画雷达图存档作为后续对照基线。

Things to Remember

  • 30 分钟体检套件 = 上线红线。
  • 每次模型版本变更必须重跑,结果与上一版对比。
  • 雷达图入仓库,迭代趋势可视化。

Item 48:用 NIAH + MCQ permutation + Sycophancy + GSM-IC 画雷达图

五个轴比一个 MMLU 分数更接近真相。

核心

单一 benchmark 分数掩盖结构性差异——某新模型 MMLU 涨 2 分,但 NIAH 中部下跌 8 分。雷达图可视化让 trade-off 一目了然。建议轴:长上下文(NIAH)、位置鲁棒(MCQ permutation)、判断力(Sycophancy)、推理鲁棒(GSM-IC)、解码稳定(重复率)。

Things to Remember

  • 把模型选型决策可视化为雷达图,而不是单一指标排名。
  • 每个轴必须 ≥ 100 样本才能统计显著。
  • 雷达图必须附置信区间,否则只能看大概不能拍板。

Effective LLM