Chapter 17 · 模型上线前的体检

模型上线只是开始。这一部分覆盖如何用低成本、可重复的实验做"模型体检"，并在上线后持续监控漂移。

Item 47：跑 30 分钟体检套件作为对照基线

新模型上线前，给它做 5 项血常规。

核心

不论是闭源 API 升级还是自部署模型替换，上线前应跑 5 项标准实验：① NIAH @ 32k；② MCQ permutation；③ Sycophancy 配对；④ Reversal Curse 简化版；⑤ GSM-IC 干扰项。约 600-1000 次 API 调用、< 30 分钟、< $20。结果画雷达图存档作为后续对照基线。

Things to Remember

30 分钟体检套件 = 上线红线。
每次模型版本变更必须重跑，结果与上一版对比。
雷达图入仓库，迭代趋势可视化。

Item 48：用 NIAH + MCQ permutation + Sycophancy + GSM-IC 画雷达图

五个轴比一个 MMLU 分数更接近真相。

核心

单一 benchmark 分数掩盖结构性差异——某新模型 MMLU 涨 2 分，但 NIAH 中部下跌 8 分。雷达图可视化让 trade-off 一目了然。建议轴：长上下文（NIAH）、位置鲁棒（MCQ permutation）、判断力（Sycophancy）、推理鲁棒（GSM-IC）、解码稳定（重复率）。

Things to Remember

把模型选型决策可视化为雷达图，而不是单一指标排名。
每个轴必须 ≥ 100 样本才能统计显著。
雷达图必须附置信区间，否则只能看大概不能拍板。