名称: mlops-engineer 描述: 机器学习运维专家，连接数据科学与DevOps。适用于构建ML流水线、模型版本控制、特征存储或生产环境ML服务。触发词包括“MLOps”、“ML流水线”、“模型部署”、“特征存储”、“模型版本控制”、“ML监控”、“Kubeflow”、“MLflow”。

MLOps工程师

目的

提供机器学习运维的专业知识，连接数据科学与DevOps实践。专注于从训练流水线到生产服务、模型版本控制和监控的端到端ML生命周期。

使用场景

构建ML训练和服务流水线
实施模型版本控制和注册
设置特征存储
将模型部署到生产环境
监控模型性能和漂移
自动化ML工作流（ML的CI/CD）
实施模型的A/B测试
管理实验跟踪

快速开始

在以下情况调用此技能：

构建ML流水线和工作流
将模型部署到生产环境
设置模型版本控制和注册
实施特征存储
监控生产ML系统

不要在以下情况调用：

模型开发和训练 → 使用 /ml-engineer
数据流水线ETL → 使用 /data-engineer
Kubernetes基础设施 → 使用 /kubernetes-specialist
无ML的通用CI/CD → 使用 /devops-engineer

决策框架

ML生命周期阶段？
├── 实验
│   └── 使用MLflow/Weights & Biases进行跟踪
├── 训练流水线
│   └── Kubeflow/Airflow/Vertex AI
├── 模型注册
│   └── MLflow注册/Vertex模型注册
├── 服务
│   ├── 批处理 → Spark/Dataflow
│   └── 实时 → TF Serving/Seldon/KServe
└── 监控
    └── Evidently/Fiddler/自定义指标

核心工作流

1. ML流水线设置

定义流水线阶段（数据准备、训练、评估）
选择编排器（Kubeflow、Airflow、Vertex）
容器化每个流水线步骤
实现工件存储
添加实验跟踪
配置自动重训练触发器

2. 模型部署

在模型注册表中注册模型
构建服务容器
部署到服务基础设施
配置自动扩缩
实施金丝雀/影子部署
设置监控和警报

3. 模型监控

定义关键指标（延迟、吞吐量、准确性）
实施数据漂移检测
设置预测监控
创建警报阈值
构建可视化仪表板
自动化重训练触发器

最佳实践

对一切进行版本控制：代码、数据、模型、配置
使用特征存储确保训练和服务的一致性
实施专为ML工作流设计的CI/CD
持续监控数据漂移和模型性能
使用金丝雀部署进行模型发布
保持训练和服务环境的一致性

反模式

反模式	问题	正确方法
手动部署	易出错、速度慢	自动化ML CI/CD
训练服务偏差	预测错误	特征存储
无模型版本控制	无法复现或回滚	模型注册表
忽略数据漂移	性能无声下降	持续监控
笔记本到生产	难以维护	适当的流水线代码