名称: ai-mlops 描述: 用于在生产环境中部署和操作ML系统的生产MLOps和ML/LLM/agent安全技能(注册表 + CI/CD、服务、监控/漂移、评估循环、事件响应/运行手册和治理),包括GenAI安全(提示注入、越狱防御、RAG安全、隐私和供应链安全)。
MLOps 与 ML 安全 - 完整参考(2026年1月)
生产ML生命周期,采用现代安全实践。
此技能涵盖:
- 生产:数据摄取、部署、漂移检测、监控、事件响应
- 安全:提示注入、越狱防御、RAG安全、输出过滤
- 治理:隐私保护、供应链安全、安全评估
- 数据摄取(dlt):从API、数据库加载数据到数据仓库
- 模型部署:批量作业、实时API、混合系统、事件驱动自动化
- 运维:实时监控、漂移检测、自动化再训练、事件响应
现代最佳实践(2026年1月):
- 对可更改内容进行版本控制:模型工件、数据快照、特征定义、提示/配置和代理图;要求可重现性、回滚和审计日志(NIST SSDF:https://csrc.nist.gov/pubs/sp/800/218/final)。
- 通过评估(离线 + 在线)和安全推出(影子/金丝雀/蓝绿)控制变更;将质量、安全性、延迟和成本的退化视为发布阻止项。
- 将控制和文档与风险状况对齐(欧盟AI法案:https://eur-lex.europa.eu/eli/reg/2024/1689/oj;NIST AI RMF + GenAI配置:https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf, https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf)。
- 实施安全:对完整系统(数据、模型、提示、工具、RAG)进行威胁建模,强化供应链(SBOM/签名),并为可靠性和安全事件提供事件应对手册。
它注重执行:
- 数据摄取模式(REST API、数据库复制、增量加载)
- 部署模式(批量、在线、混合、流式、事件驱动)
- 自动化监控,带实时漂移检测
- 自动化再训练流水线(监控 → 检测 → 触发 → 验证 → 部署)
- 事件处理,带已验证回滚和事后分析
- 链接到
assets/中的复制粘贴模板
快速参考
| 任务 | 工具/框架 | 命令 | 使用场景 |
|---|---|---|---|
| 数据摄取 | dlt(数据加载工具) | dlt pipeline run, dlt init |
从API、数据库加载到数据仓库 |
| 批量部署 | Airflow, Dagster, Prefect | airflow dags trigger, dagster job launch |
大型数据集的计划预测 |
| API部署 | FastAPI, Flask, TorchServe | uvicorn app:app, torchserve --start |
实时推理(<500ms延迟) |
| LLM服务 | vLLM, TGI, BentoML | vllm serve model, bentoml serve |
高吞吐量LLM推理 |
| 模型注册表 | MLflow, W&B, ZenML | mlflow.register_model(), zenml model register |
模型版本控制和升级 |
| 漂移检测 | 统计测试 + 监控器 | PSI/KS, 嵌入漂移, 预测漂移 | 检测数据/过程变更并触发审核 |
| 监控 | Prometheus, Grafana | prometheus.yml, Grafana仪表板 |
指标、警报、SLO跟踪 |
| AgentOps | AgentOps, Langfuse, LangSmith | agentops.init(), 跟踪可视化 |
AI代理可观测性、会话回放 |
| 事件响应 | 运行手册, PagerDuty | 文档化操作手册, 警报路由 | 处理故障和性能下降 |
何时使用此技能
当用户询问ML/LLM/agent系统的部署、运维、监控、事件处理或治理时使用此技能,例如:
- “如何将此模型部署到生产环境?”
- “设计一个批量 + 在线评分架构。”
- “为我们的模型添加监控和漂移检测。”
- “为此ML服务编写事件运行手册。”
- “将此LLM/RAG流水线打包为API。”
- “规划我们的再训练和升级工作流。”
- “从Stripe API加载数据到Snowflake。”
- “使用dlt设置增量数据库复制。”
- “为数据仓库加载构建ELT流水线。”
如果用户仅询问EDA、建模或理论,请优先使用:
ai-ml-data-science(EDA、特征、建模、使用SQLMesh的SQL转换)ai-llm(提示工程、微调、评估)ai-rag(检索流水线设计)ai-llm-inference(压缩、spec解码、服务内部)
如果用户询问SQL转换(数据加载后),请优先使用:
ai-ml-data-science(SQLMesh模板用于暂存、中间、集市层)
决策树:选择部署策略
用户需要部署:[ML系统]
├─ 数据摄取?
│ ├─ 来自REST API? → dlt REST API模板
│ ├─ 来自数据库? → dlt数据库源(PostgreSQL, MySQL, MongoDB)
│ └─ 增量加载? → dlt增量模式(时间戳、ID基础)
│
├─ 模型服务?
│ ├─ 延迟<500ms? → FastAPI实时API
│ ├─ 批量预测? → Airflow/Dagster批量流水线
│ └─ 混合? → 混合(批量特征 + 在线评分)
│
├─ 监控与运维?
│ ├─ 漂移检测? → Evidently + 自动化再训练触发器
│ ├─ 性能跟踪? → Prometheus + Grafana仪表板
│ └─ 事件响应? → 运行手册 + PagerDuty警报
│
└─ LLM/RAG生产?
├─ 成本优化? → 缓存、提示模板、令牌预算
└─ 安全性? → 参见ai-mlops技能
核心概念(供应商无关)
- 生命周期循环:训练 → 验证 → 部署 → 监控 → 响应 → 再训练/退役。
- 风险控制:访问控制、数据最小化、日志记录和变更管理(NIST AI RMF:https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf)。
- 可观测性平面:系统指标(延迟/错误)、数据指标(新鲜度/漂移)、质量指标(模型性能)。
- 事件准备:检测、遏制、回滚和根本原因分析。
做 / 避免
做
- 部署前进行可重复检查:评估通过、负载测试、安全审核、回滚计划。
- 对所有内容进行版本控制:代码、数据、特征、模型工件、提示模板、配置。
- 定义SLO和预算(延迟/成本/错误率)后进行优化。
避免
- 避免无审计追踪的手动“点击运维”部署。
- 避免静默升级;模型/提示变更需要评估 + 金丝雀发布。
- 避免无行动的漂移仪表板;每个警报都需要所有者和运行手册。
核心模式概述
此技能提供生产就绪的模式和指南,组织为全面参考:
数据与基础设施模式
模式0:数据合约、摄取与血缘 → 参见数据摄取模式
- 带SLA和版本控制的数据合约
- 摄取模式(CDC、批量、流式)
- 血缘跟踪和模式演进
- 重放和回填程序
模式1:选择部署模式 → 参见部署模式
- 决策表(批量、在线、混合、流式)
- 每种模式的使用场景
- 部署模式选择清单
模式2:标准部署生命周期 → 参见部署生命周期
- 预部署、部署、观察、操作、演进阶段
- 环境升级(开发 → 暂存 → 生产)
- 渐进推出策略(金丝雀、蓝绿)
模式3:打包与模型注册表 → 参见模型注册表模式
- 模型注册表结构和元数据
- 打包策略(Docker、ONNX、MLflow)
- 升级流程(实验 → 生产)
- 版本控制和治理
服务模式
模式4:批量评分流水线 → 参见部署模式
- 使用Airflow/Dagster编排
- 幂等评分作业
- 验证和回填程序
模式5:实时API评分 → 参见API设计模式
- 服务设计(HTTP/JSON、gRPC)
- 输入/输出模式
- 速率限制、超时、断路器
模式6:混合与特征存储集成 → 参见特征存储模式
- 批量与在线特征
- 特征存储架构
- 训练-服务一致性
- 时间点正确性
运维模式
模式7:监控与警报 → 参见监控最佳实践
- 数据、性能和技术指标
- SLO定义和跟踪
- 仪表板设计和警报策略
模式8:漂移检测与自动化再训练 → 参见漂移检测指南
- 自动化再训练触发器
- 事件驱动再训练流水线
模式9:事件与运行手册 → 参见事件响应操作手册
- 常见故障模式
- 检测、诊断、解决
- 事后程序
模式10:LLM / RAG 在生产环境 → 参见LLM & RAG 生产模式
- 提示和配置管理
- 安全性与合规性(PII、越狱防御)
- 成本优化(令牌预算、缓存)
- 监控和回退
模式11:跨区域、数据驻留与回滚 → 参见多区域模式
- 多区域部署架构
- 数据驻留和租户隔离
- 灾难恢复和故障转移
- 区域回滚程序
模式12:在线评估与反馈循环 → 参见在线评估模式
- 反馈信号收集(隐式、显式)
- 影子和金丝雀部署
- 带统计显著性的A/B测试
- 人类在环标记
- 自动化再训练节奏
模式13:AgentOps(AI代理运维) → 参见AgentOps模式
- AI代理的会话跟踪和回放
- 跨代理运行的成本和延迟跟踪
- 多代理可视化和调试
- 工具调用监控
- 与CrewAI、LangGraph、OpenAI Agents SDK集成
模式14:边缘MLOps与TinyML → 参见边缘MLOps模式
- 设备感知CI/CD流水线
- OTA模型更新带回滚
- 联邦学习运维
- 边缘漂移检测
- 间歇连接处理
资源(详细指南)
如需全面运维指南,请参见:
核心基础设施:
- 数据摄取模式 - 数据合约、CDC、批量/流式摄取、血缘、模式演进
- 部署生命周期 - 预部署验证、环境升级、渐进推出、回滚
- 模型注册表模式 - 版本控制、打包、升级工作流、治理
- 特征存储模式 - 批量/在线特征、混合架构、一致性、延迟优化
服务与API:
运维与可靠性:
安全与治理:
- 威胁模型 - 信任边界、攻击面、控制映射
- 提示注入缓解 - 输入硬化、工具/RAG遏制、最小权限
- 越狱防御 - 稳健拒绝行为、安全完成模式
- RAG安全 - 检索毒化、上下文注入、敏感数据泄露
- 输出过滤 - 分层过滤器(PII/毒性/策略)、阻止/重写策略
- 隐私保护 - PII处理、数据最小化、保留、同意
- 供应链安全 - SBOM、依赖固定、工件签名
- 安全评估 - 红队、评估集、事件准备
高级模式:
- LLM & RAG 生产模式 - 提示管理、安全性、成本优化、缓存、监控
- 多区域模式 - 多区域部署、数据驻留、灾难恢复、回滚
- 在线评估模式 - A/B测试、影子部署、反馈循环、自动化再训练
- AgentOps模式 - AI代理可观测性、会话回放、成本跟踪、多代理调试
- 边缘MLOps模式 - TinyML、联邦学习、OTA更新、设备感知CI/CD
模板
使用这些作为生产工件的复制粘贴起点:
数据摄取(dlt)
用于加载数据到数据仓库和流水线:
- dlt基础流水线设置 - 安装、配置、运行基础提取和加载
- dlt REST API源 - 从REST API提取,带分页、认证、速率限制
- dlt数据库源 - 从PostgreSQL、MySQL、MongoDB、SQL Server复制
- dlt增量加载 - 基于时间戳、基于ID、合并/更新模式、回看窗口
- dlt数据仓库加载 - 加载到Snowflake、BigQuery、Redshift、Postgres、DuckDB
使用dlt场景:
- 从API加载数据(Stripe、HubSpot、Shopify、自定义API)
- 复制数据库到数据仓库
- 构建带增量加载的ELT流水线
- 使用Python管理数据摄取
SQL转换(摄取后)使用:
→ ai-ml-data-science技能(SQLMesh模板用于暂存/中间/集市层)
部署与打包
- 部署与MLOps模板 - 完整MLOps生命周期、模型注册表、升级工作流
- 部署准备清单 - 执行/停止门、监控和回滚计划
- API服务模板 - 实时REST/gRPC API与FastAPI、输入验证、速率限制
- 批量评分流水线模板 - 编排批量推理与Airflow/Dagster、验证、回填
监控与运维
- 监控与警报模板 - 数据/性能/技术指标、仪表板、SLO定义
- 漂移检测与再训练模板 - 自动化漂移检测、再训练触发器、升级流水线
- 事件运行手册模板 - 故障模式操作手册、诊断步骤、解决程序
导航
资源
- references/drift-detection-guide.md
- references/model-registry-patterns.md
- references/online-evaluation-patterns.md
- references/monitoring-best-practices.md
- references/llm-rag-production-patterns.md
- references/api-design-patterns.md
- references/incident-response-playbooks.md
- references/deployment-patterns.md
- references/data-ingestion-patterns.md
- references/deployment-lifecycle.md
- references/feature-store-patterns.md
- references/multi-region-patterns.md
- references/agentops-patterns.md
- references/edge-mlops-patterns.md
模板
- template-dlt-pipeline.md
- template-dlt-rest-api.md
- template-dlt-database-source.md
- template-dlt-incremental.md
- template-dlt-warehouse-loading.md
- assets/deployment/template-deployment-mlops.md
- assets/deployment/deployment-readiness-checklist.md
- assets/deployment/template-api-service.md
- assets/deployment/template-batch-pipeline.md
- assets/ops/template-incident-runbook.md
- assets/monitoring/template-drift-retraining.md
- assets/monitoring/template-monitoring-plan.md
数据
- data/sources.json - 精选外部参考
外部资源
参见data/sources.json获取关于以下内容的精选参考:
- 服务框架(FastAPI、Flask、gRPC、TorchServe、KServe、Ray Serve)
- 编排(Airflow、Dagster、Prefect)
- 模型注册表和MLOps(MLflow、W&B、Vertex AI、Sagemaker)
- 监控和可观测性(Prometheus、Grafana、OpenTelemetry、Evidently)
- 特征存储(Feast、Tecton、Vertex、Databricks)
- 流式与消息传递(Kafka、Pulsar、Kinesis)
- LLMOps & RAG基础设施(向量数据库、LLM网关、安全工具)
数据湖与湖仓
如需全面数据湖/湖仓模式(超越dlt摄取),请参见**data-lake-platform**:
- 表格式: Apache Iceberg、Delta Lake、Apache Hudi
- 查询引擎: ClickHouse、DuckDB、Apache Doris、StarRocks
- 替代摄取: Airbyte(基于GUI的连接器)
- 转换: dbt(SQLMesh替代)
- 流式: Apache Kafka模式
- 编排: Dagster、Airflow
此技能专注于ML特定部署、监控和安全。使用data-lake-platform进行通用数据基础设施。
时效性协议(工具推荐)
当用户询问MLOps工具推荐问题时,回答前验证时效性。
触发条件
- “对于[用例]的最佳MLOps平台是什么?”
- “我应该使用什么进行[部署/监控/漂移检测]?”
- “MLOps的最新动态是什么?”
- “模型注册表/特征存储/可观测性的当前最佳实践?”
- “MLflow/Kubeflow/Vertex AI在2026年仍然相关吗?”
- “[MLOps工具A] vs [MLOps工具B]?”
- “部署[LLM/ML模型]到生产的最佳方式?”
- “我应该使用什么特征存储?”
最小时效性检查
- 从
data/sources.json开始,优先使用add_as_web_search: true的源。 - 如果可用网络搜索或浏览,至少确认:(a) 工具的最新发布/文档日期,(b) 活跃维护信号,© 最近的比较/替代帖子。
- 如果无法实时搜索,声明您依赖静态知识 +
data/sources.json,并推荐验证步骤(POC + 评估 + 推出计划)。
报告内容
搜索后提供:
- 当前格局: 当前流行的MLOps工具/平台
- 新兴趋势: 新方法获得关注(LLMOps、GenAI运维)
- 过时/衰退: 工具或方法失去相关性
- 推荐: 基于新数据,而非仅静态知识
相关技能
对于相邻主题,参考这些技能:
- ai-ml-data-science - EDA、特征工程、建模、评估、SQLMesh转换
- ai-llm - LLM的提示工程、微调、评估
- ai-agents - 代理工作流、多代理系统、LLMOps
- ai-rag - RAG流水线设计、分块、检索、评估
- ai-llm-inference - 模型服务优化、量化、批处理
- ai-prompt-engineering - 提示设计模式和最佳实践
- data-lake-platform - 数据湖/湖仓基础设施(ClickHouse、Iceberg、Kafka)
使用此技能将训练好的模型转化为可靠服务,而非模型本身。