Chapter 18 · 上线后的持续监控
Item 49:把 hallucination 检测器接入 production trace
没人监控的模型,错了你不会知道。
核心
每条 production 请求异步跑 SelfCheckGPT / FActScore / cite 一致性校验,把疑似幻觉的样本送到人工审核 + 训练数据回灌。这是把模型工程从"上线即结束"提升到"持续学习闭环"的分水岭。
Things to Remember
- production trace 必须采样 hallucination 检测,至少 1%-5% 样本。
- 检测异常样本 → 人工标注 → 回灌训练 / RAG 修补。
- KPI:hallucination 检出率、人工标注后召回率。
Item 50:每月跑一遍 LiveBench 监测漂移与污染
模型不变,世界变。
核心
模型版本固定 + 数据/世界变化 = 性能漂移。LiveBench / LiveCodeBench 每月发布最新数据切片,同一模型分数趋势可揭示三类漂移:① 模型 silent update;② benchmark 污染;③ 真实世界分布漂移。把这一步做成 cron job。
Things to Remember
- 每月 1 号自动跑 LiveBench,结果存档。
- 趋势图入 SLO 看板——分数下跌触发告警。
- 漂移检测是模型治理的最后一道防线。