名称: ai-mlops 描述: 用于在生产环境中部署和操作ML系统的生产MLOps和ML/LLM/agent安全技能（注册表 + CI/CD、服务、监控/漂移、评估循环、事件响应/运行手册和治理），包括GenAI安全（提示注入、越狱防御、RAG安全、隐私和供应链安全）。

MLOps 与 ML 安全 - 完整参考（2026年1月）

生产ML生命周期，采用现代安全实践。

此技能涵盖：

生产：数据摄取、部署、漂移检测、监控、事件响应
安全：提示注入、越狱防御、RAG安全、输出过滤
治理：隐私保护、供应链安全、安全评估

数据摄取（dlt）：从API、数据库加载数据到数据仓库
模型部署：批量作业、实时API、混合系统、事件驱动自动化
运维：实时监控、漂移检测、自动化再训练、事件响应

现代最佳实践（2026年1月）：

对可更改内容进行版本控制：模型工件、数据快照、特征定义、提示/配置和代理图；要求可重现性、回滚和审计日志（NIST SSDF：https://csrc.nist.gov/pubs/sp/800/218/final）。
通过评估（离线 + 在线）和安全推出（影子/金丝雀/蓝绿）控制变更；将质量、安全性、延迟和成本的退化视为发布阻止项。
将控制和文档与风险状况对齐（欧盟AI法案：https://eur-lex.europa.eu/eli/reg/2024/1689/oj；NIST AI RMF + GenAI配置：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf, https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf）。
实施安全：对完整系统（数据、模型、提示、工具、RAG）进行威胁建模，强化供应链（SBOM/签名），并为可靠性和安全事件提供事件应对手册。

它注重执行：

数据摄取模式（REST API、数据库复制、增量加载）
部署模式（批量、在线、混合、流式、事件驱动）
自动化监控，带实时漂移检测
自动化再训练流水线（监控 → 检测 → 触发 → 验证 → 部署）
事件处理，带已验证回滚和事后分析
链接到assets/中的复制粘贴模板

快速参考

任务	工具/框架	命令	使用场景
数据摄取	dlt（数据加载工具）	`dlt pipeline run`, `dlt init`	从API、数据库加载到数据仓库
批量部署	Airflow, Dagster, Prefect	`airflow dags trigger`, `dagster job launch`	大型数据集的计划预测
API部署	FastAPI, Flask, TorchServe	`uvicorn app:app`, `torchserve --start`	实时推理（<500ms延迟）
LLM服务	vLLM, TGI, BentoML	`vllm serve model`, `bentoml serve`	高吞吐量LLM推理
模型注册表	MLflow, W&B, ZenML	`mlflow.register_model()`, `zenml model register`	模型版本控制和升级
漂移检测	统计测试 + 监控器	PSI/KS, 嵌入漂移, 预测漂移	检测数据/过程变更并触发审核
监控	Prometheus, Grafana	`prometheus.yml`, Grafana仪表板	指标、警报、SLO跟踪
AgentOps	AgentOps, Langfuse, LangSmith	`agentops.init()`, 跟踪可视化	AI代理可观测性、会话回放
事件响应	运行手册, PagerDuty	文档化操作手册, 警报路由	处理故障和性能下降

何时使用此技能

当用户询问ML/LLM/agent系统的部署、运维、监控、事件处理或治理时使用此技能，例如：

“如何将此模型部署到生产环境？”
“设计一个批量 + 在线评分架构。”
“为我们的模型添加监控和漂移检测。”
“为此ML服务编写事件运行手册。”
“将此LLM/RAG流水线打包为API。”
“规划我们的再训练和升级工作流。”
“从Stripe API加载数据到Snowflake。”
“使用dlt设置增量数据库复制。”
“为数据仓库加载构建ELT流水线。”

如果用户仅询问EDA、建模或理论，请优先使用：

ai-ml-data-science（EDA、特征、建模、使用SQLMesh的SQL转换）
ai-llm（提示工程、微调、评估）
ai-rag（检索流水线设计）
ai-llm-inference（压缩、spec解码、服务内部）

如果用户询问SQL转换（数据加载后），请优先使用：

ai-ml-data-science（SQLMesh模板用于暂存、中间、集市层）

决策树：选择部署策略

用户需要部署：[ML系统]
    ├─ 数据摄取？
    │   ├─ 来自REST API？ → dlt REST API模板
    │   ├─ 来自数据库？ → dlt数据库源（PostgreSQL, MySQL, MongoDB）
    │   └─ 增量加载？ → dlt增量模式（时间戳、ID基础）
    │
    ├─ 模型服务？
    │   ├─ 延迟<500ms？ → FastAPI实时API
    │   ├─ 批量预测？ → Airflow/Dagster批量流水线
    │   └─ 混合？ → 混合（批量特征 + 在线评分）
    │
    ├─ 监控与运维？
    │   ├─ 漂移检测？ → Evidently + 自动化再训练触发器
    │   ├─ 性能跟踪？ → Prometheus + Grafana仪表板
    │   └─ 事件响应？ → 运行手册 + PagerDuty警报
    │
    └─ LLM/RAG生产？
        ├─ 成本优化？ → 缓存、提示模板、令牌预算
        └─ 安全性？ → 参见ai-mlops技能

核心概念（供应商无关）

生命周期循环：训练 → 验证 → 部署 → 监控 → 响应 → 再训练/退役。
风险控制：访问控制、数据最小化、日志记录和变更管理（NIST AI RMF：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf）。
可观测性平面：系统指标（延迟/错误）、数据指标（新鲜度/漂移）、质量指标（模型性能）。
事件准备：检测、遏制、回滚和根本原因分析。

做 / 避免

做

部署前进行可重复检查：评估通过、负载测试、安全审核、回滚计划。
对所有内容进行版本控制：代码、数据、特征、模型工件、提示模板、配置。
定义SLO和预算（延迟/成本/错误率）后进行优化。

避免

避免无审计追踪的手动“点击运维”部署。
避免静默升级；模型/提示变更需要评估 + 金丝雀发布。
避免无行动的漂移仪表板；每个警报都需要所有者和运行手册。

核心模式概述

此技能提供生产就绪的模式和指南，组织为全面参考：

数据与基础设施模式

模式0：数据合约、摄取与血缘 → 参见数据摄取模式

带SLA和版本控制的数据合约
摄取模式（CDC、批量、流式）
血缘跟踪和模式演进
重放和回填程序

模式1：选择部署模式 → 参见部署模式

决策表（批量、在线、混合、流式）
每种模式的使用场景
部署模式选择清单

模式2：标准部署生命周期 → 参见部署生命周期

预部署、部署、观察、操作、演进阶段
环境升级（开发 → 暂存 → 生产）
渐进推出策略（金丝雀、蓝绿）

模式3：打包与模型注册表 → 参见模型注册表模式

模型注册表结构和元数据
打包策略（Docker、ONNX、MLflow）
升级流程（实验 → 生产）
版本控制和治理

服务模式

模式4：批量评分流水线 → 参见部署模式

使用Airflow/Dagster编排
幂等评分作业
验证和回填程序

模式5：实时API评分 → 参见API设计模式

服务设计（HTTP/JSON、gRPC）
输入/输出模式
速率限制、超时、断路器

模式6：混合与特征存储集成 → 参见特征存储模式

批量与在线特征
特征存储架构
训练-服务一致性
时间点正确性

运维模式

模式7：监控与警报 → 参见监控最佳实践

数据、性能和技术指标
SLO定义和跟踪
仪表板设计和警报策略

模式8：漂移检测与自动化再训练 → 参见漂移检测指南

自动化再训练触发器
事件驱动再训练流水线

模式9：事件与运行手册 → 参见事件响应操作手册

常见故障模式
检测、诊断、解决
事后程序

模式10：LLM / RAG 在生产环境 → 参见LLM & RAG 生产模式

提示和配置管理
安全性与合规性（PII、越狱防御）
成本优化（令牌预算、缓存）
监控和回退

模式11：跨区域、数据驻留与回滚 → 参见多区域模式

多区域部署架构
数据驻留和租户隔离
灾难恢复和故障转移
区域回滚程序

模式12：在线评估与反馈循环 → 参见在线评估模式

反馈信号收集（隐式、显式）
影子和金丝雀部署
带统计显著性的A/B测试
人类在环标记
自动化再训练节奏

模式13：AgentOps（AI代理运维） → 参见AgentOps模式

AI代理的会话跟踪和回放
跨代理运行的成本和延迟跟踪
多代理可视化和调试
工具调用监控
与CrewAI、LangGraph、OpenAI Agents SDK集成

模式14：边缘MLOps与TinyML → 参见边缘MLOps模式

设备感知CI/CD流水线
OTA模型更新带回滚
联邦学习运维
边缘漂移检测
间歇连接处理

资源（详细指南）

如需全面运维指南，请参见：

核心基础设施：

数据摄取模式 - 数据合约、CDC、批量/流式摄取、血缘、模式演进
部署生命周期 - 预部署验证、环境升级、渐进推出、回滚
模型注册表模式 - 版本控制、打包、升级工作流、治理
特征存储模式 - 批量/在线特征、混合架构、一致性、延迟优化

服务与API：

部署模式 - 批量、在线、混合、流式部署策略和架构
API设计模式 - ML/LLM/RAG API模式、输入/输出模式、可靠性模式、版本控制

运维与可靠性：

监控最佳实践 - 指标收集、警报策略、SLO定义、仪表板设计
漂移检测指南 - 统计测试、自动化检测、再训练触发器、恢复策略
事件响应操作手册 - 常见故障模式操作手册、诊断、解决步骤

安全与治理：

威胁模型 - 信任边界、攻击面、控制映射
提示注入缓解 - 输入硬化、工具/RAG遏制、最小权限
越狱防御 - 稳健拒绝行为、安全完成模式
RAG安全 - 检索毒化、上下文注入、敏感数据泄露
输出过滤 - 分层过滤器（PII/毒性/策略）、阻止/重写策略
隐私保护 - PII处理、数据最小化、保留、同意
供应链安全 - SBOM、依赖固定、工件签名
安全评估 - 红队、评估集、事件准备

高级模式：

LLM & RAG 生产模式 - 提示管理、安全性、成本优化、缓存、监控
多区域模式 - 多区域部署、数据驻留、灾难恢复、回滚
在线评估模式 - A/B测试、影子部署、反馈循环、自动化再训练
AgentOps模式 - AI代理可观测性、会话回放、成本跟踪、多代理调试
边缘MLOps模式 - TinyML、联邦学习、OTA更新、设备感知CI/CD

模板

使用这些作为生产工件的复制粘贴起点：

数据摄取（dlt）

用于加载数据到数据仓库和流水线：

dlt基础流水线设置 - 安装、配置、运行基础提取和加载
dlt REST API源 - 从REST API提取，带分页、认证、速率限制
dlt数据库源 - 从PostgreSQL、MySQL、MongoDB、SQL Server复制
dlt增量加载 - 基于时间戳、基于ID、合并/更新模式、回看窗口
dlt数据仓库加载 - 加载到Snowflake、BigQuery、Redshift、Postgres、DuckDB

使用dlt场景：

从API加载数据（Stripe、HubSpot、Shopify、自定义API）
复制数据库到数据仓库
构建带增量加载的ELT流水线
使用Python管理数据摄取

SQL转换（摄取后）使用：

→ ai-ml-data-science技能（SQLMesh模板用于暂存/中间/集市层）

部署与打包

部署与MLOps模板 - 完整MLOps生命周期、模型注册表、升级工作流
部署准备清单 - 执行/停止门、监控和回滚计划
API服务模板 - 实时REST/gRPC API与FastAPI、输入验证、速率限制
批量评分流水线模板 - 编排批量推理与Airflow/Dagster、验证、回填

监控与运维

监控与警报模板 - 数据/性能/技术指标、仪表板、SLO定义
漂移检测与再训练模板 - 自动化漂移检测、再训练触发器、升级流水线
事件运行手册模板 - 故障模式操作手册、诊断步骤、解决程序

外部资源

参见data/sources.json获取关于以下内容的精选参考：

服务框架（FastAPI、Flask、gRPC、TorchServe、KServe、Ray Serve）
编排（Airflow、Dagster、Prefect）
模型注册表和MLOps（MLflow、W&B、Vertex AI、Sagemaker）
监控和可观测性（Prometheus、Grafana、OpenTelemetry、Evidently）
特征存储（Feast、Tecton、Vertex、Databricks）
流式与消息传递（Kafka、Pulsar、Kinesis）
LLMOps & RAG基础设施（向量数据库、LLM网关、安全工具）

数据湖与湖仓

如需全面数据湖/湖仓模式（超越dlt摄取），请参见**data-lake-platform**：

表格式： Apache Iceberg、Delta Lake、Apache Hudi
查询引擎： ClickHouse、DuckDB、Apache Doris、StarRocks
替代摄取： Airbyte（基于GUI的连接器）
转换： dbt（SQLMesh替代）
流式： Apache Kafka模式
编排： Dagster、Airflow

此技能专注于ML特定部署、监控和安全。使用data-lake-platform进行通用数据基础设施。

时效性协议（工具推荐）

当用户询问MLOps工具推荐问题时，回答前验证时效性。

触发条件

“对于[用例]的最佳MLOps平台是什么？”
“我应该使用什么进行[部署/监控/漂移检测]？”
“MLOps的最新动态是什么？”
“模型注册表/特征存储/可观测性的当前最佳实践？”
“MLflow/Kubeflow/Vertex AI在2026年仍然相关吗？”
“[MLOps工具A] vs [MLOps工具B]？”
“部署[LLM/ML模型]到生产的最佳方式？”
“我应该使用什么特征存储？”

最小时效性检查

从data/sources.json开始，优先使用add_as_web_search: true的源。
如果无法实时搜索，声明您依赖静态知识 + data/sources.json，并推荐验证步骤（POC + 评估 + 推出计划）。

报告内容

搜索后提供：

当前格局： 当前流行的MLOps工具/平台
新兴趋势： 新方法获得关注（LLMOps、GenAI运维）
过时/衰退： 工具或方法失去相关性
推荐： 基于新数据，而非仅静态知识

AI-MLOps技能：机器学习运维与安全Skill ai-mlops