Chapter 18 · 上线后的持续监控

没人监控的模型，错了你不会知道。

每条 production 请求异步跑 SelfCheckGPT / FActScore / cite 一致性校验，把疑似幻觉的样本送到人工审核 + 训练数据回灌。这是把模型工程从"上线即结束"提升到"持续学习闭环"的分水岭。

模型不变，世界变。

模型版本固定 + 数据/世界变化 = 性能漂移。LiveBench / LiveCodeBench 每月发布最新数据切片，同一模型分数趋势可揭示三类漂移：① 模型 silent update；② benchmark 污染；③ 真实世界分布漂移。把这一步做成 cron job。

Chapter 18 · 上线后的持续监控 ​