Skip to content

Chapter 18 · 上线后的持续监控

Item 49:把 hallucination 检测器接入 production trace

没人监控的模型,错了你不会知道。

核心

每条 production 请求异步跑 SelfCheckGPT / FActScore / cite 一致性校验,把疑似幻觉的样本送到人工审核 + 训练数据回灌。这是把模型工程从"上线即结束"提升到"持续学习闭环"的分水岭。

Things to Remember

  • production trace 必须采样 hallucination 检测,至少 1%-5% 样本。
  • 检测异常样本 → 人工标注 → 回灌训练 / RAG 修补。
  • KPI:hallucination 检出率、人工标注后召回率。

Item 50:每月跑一遍 LiveBench 监测漂移与污染

模型不变,世界变。

核心

模型版本固定 + 数据/世界变化 = 性能漂移。LiveBench / LiveCodeBench 每月发布最新数据切片,同一模型分数趋势可揭示三类漂移:① 模型 silent update;② benchmark 污染;③ 真实世界分布漂移。把这一步做成 cron job。

Things to Remember

  • 每月 1 号自动跑 LiveBench,结果存档。
  • 趋势图入 SLO 看板——分数下跌触发告警。
  • 漂移检测是模型治理的最后一道防线。

Effective LLM