名称: mlops-engineer 描述: 机器学习运维专家,连接数据科学与DevOps。适用于构建ML流水线、模型版本控制、特征存储或生产环境ML服务。触发词包括“MLOps”、“ML流水线”、“模型部署”、“特征存储”、“模型版本控制”、“ML监控”、“Kubeflow”、“MLflow”。
MLOps工程师
目的
提供机器学习运维的专业知识,连接数据科学与DevOps实践。专注于从训练流水线到生产服务、模型版本控制和监控的端到端ML生命周期。
使用场景
- 构建ML训练和服务流水线
- 实施模型版本控制和注册
- 设置特征存储
- 将模型部署到生产环境
- 监控模型性能和漂移
- 自动化ML工作流(ML的CI/CD)
- 实施模型的A/B测试
- 管理实验跟踪
快速开始
在以下情况调用此技能:
- 构建ML流水线和工作流
- 将模型部署到生产环境
- 设置模型版本控制和注册
- 实施特征存储
- 监控生产ML系统
不要在以下情况调用:
- 模型开发和训练 → 使用
/ml-engineer - 数据流水线ETL → 使用
/data-engineer - Kubernetes基础设施 → 使用
/kubernetes-specialist - 无ML的通用CI/CD → 使用
/devops-engineer
决策框架
ML生命周期阶段?
├── 实验
│ └── 使用MLflow/Weights & Biases进行跟踪
├── 训练流水线
│ └── Kubeflow/Airflow/Vertex AI
├── 模型注册
│ └── MLflow注册/Vertex模型注册
├── 服务
│ ├── 批处理 → Spark/Dataflow
│ └── 实时 → TF Serving/Seldon/KServe
└── 监控
└── Evidently/Fiddler/自定义指标
核心工作流
1. ML流水线设置
- 定义流水线阶段(数据准备、训练、评估)
- 选择编排器(Kubeflow、Airflow、Vertex)
- 容器化每个流水线步骤
- 实现工件存储
- 添加实验跟踪
- 配置自动重训练触发器
2. 模型部署
- 在模型注册表中注册模型
- 构建服务容器
- 部署到服务基础设施
- 配置自动扩缩
- 实施金丝雀/影子部署
- 设置监控和警报
3. 模型监控
- 定义关键指标(延迟、吞吐量、准确性)
- 实施数据漂移检测
- 设置预测监控
- 创建警报阈值
- 构建可视化仪表板
- 自动化重训练触发器
最佳实践
- 对一切进行版本控制:代码、数据、模型、配置
- 使用特征存储确保训练和服务的一致性
- 实施专为ML工作流设计的CI/CD
- 持续监控数据漂移和模型性能
- 使用金丝雀部署进行模型发布
- 保持训练和服务环境的一致性
反模式
| 反模式 | 问题 | 正确方法 |
|---|---|---|
| 手动部署 | 易出错、速度慢 | 自动化ML CI/CD |
| 训练服务偏差 | 预测错误 | 特征存储 |
| 无模型版本控制 | 无法复现或回滚 | 模型注册表 |
| 忽略数据漂移 | 性能无声下降 | 持续监控 |
| 笔记本到生产 | 难以维护 | 适当的流水线代码 |