Chapter 17 · 模型上线前的体检
模型上线只是开始。这一部分覆盖如何用低成本、可重复的实验做"模型体检",并在上线后持续监控漂移。
Item 47:跑 30 分钟体检套件作为对照基线
新模型上线前,给它做 5 项血常规。
核心
不论是闭源 API 升级还是自部署模型替换,上线前应跑 5 项标准实验:① NIAH @ 32k;② MCQ permutation;③ Sycophancy 配对;④ Reversal Curse 简化版;⑤ GSM-IC 干扰项。约 600-1000 次 API 调用、< 30 分钟、< $20。结果画雷达图存档作为后续对照基线。
Things to Remember
- 30 分钟体检套件 = 上线红线。
- 每次模型版本变更必须重跑,结果与上一版对比。
- 雷达图入仓库,迭代趋势可视化。
Item 48:用 NIAH + MCQ permutation + Sycophancy + GSM-IC 画雷达图
五个轴比一个 MMLU 分数更接近真相。
核心
单一 benchmark 分数掩盖结构性差异——某新模型 MMLU 涨 2 分,但 NIAH 中部下跌 8 分。雷达图可视化让 trade-off 一目了然。建议轴:长上下文(NIAH)、位置鲁棒(MCQ permutation)、判断力(Sycophancy)、推理鲁棒(GSM-IC)、解码稳定(重复率)。
Things to Remember
- 把模型选型决策可视化为雷达图,而不是单一指标排名。
- 每个轴必须 ≥ 100 样本才能统计显著。
- 雷达图必须附置信区间,否则只能看大概不能拍板。