模型监控
概览
监控部署在生产环境中的机器学习模型,确保它们继续表现良好,检测数据漂移、概念漂移和性能下降。
何时使用
- 当模型在生产环境中部署,服务真实用户时
- 当检测输入特征的数据漂移或概念漂移时
- 当跟踪模型性能指标随时间变化时
- 当确保模型的可靠性、准确性和运行健康状况时
- 当实施机器学习可观测性和报警系统时
- 当建立模型重新训练或干预的阈值时
监控组件
- 性能指标:准确率、延迟、吞吐量
- 数据漂移:输入特征的分布变化
- 概念漂移:目标变量关系的变更
- 输出漂移:预测分布的变化
- 特征漂移:单个特征分布的变化
- 异常检测:生产中不寻常的样本
监控工具
- Prometheus:指标收集和存储
- Grafana:可视化和仪表板
- MLflow:模型跟踪和注册表
- TensorFlow Data Validation:数据统计
- Evidently:漂移检测和监控
- Great Expectations:数据质量断言
Python 实现
…(省略代码实现部分)…
漂移检测技术
- Kolmogorov-Smirnov Test:统计测试分布变化
- Population Stability Index:测量特征分布偏移
- Chi-square Test:分类特征漂移
- Wasserstein Distance:基于最优传输的距离
- Jensen-Shannon Divergence:信息论度量
报警阈值
- Critical:>5% 准确率下降,立即行动
- High:3+ 特征数据漂移,需要调查
- Medium:输出漂移,增加监控
- Low:单个特征漂移,记录和跟踪
交付物
- 监控仪表板
- 报警配置
- 漂移检测报告
- 性能下降分析
- 重新训练建议
- 行动手册