AI-MLOps技能:机器学习运维与安全 ai-mlops

此技能专注于机器学习模型在生产环境中的部署、监控、运维和安全,包括数据摄取、模型部署、漂移检测、事件响应,以及生成式AI安全如提示注入防御、RAG安全等,提供完整参考和模板。关键词:MLOps, 机器学习安全, 模型部署, 漂移检测, GenAI安全, 生产ML系统, 监控, 事件响应, 自动化再训练, LLM运维, RAG安全, 威胁模型, 隐私保护, 供应链安全。

AI应用 0 次安装 0 次浏览 更新于 3/7/2026

名称: ai-mlops 描述: 用于在生产环境中部署和操作ML系统的生产MLOps和ML/LLM/agent安全技能(注册表 + CI/CD、服务、监控/漂移、评估循环、事件响应/运行手册和治理),包括GenAI安全(提示注入、越狱防御、RAG安全、隐私和供应链安全)。

MLOps 与 ML 安全 - 完整参考(2026年1月)

生产ML生命周期,采用现代安全实践

此技能涵盖:

  • 生产:数据摄取、部署、漂移检测、监控、事件响应
  • 安全:提示注入、越狱防御、RAG安全、输出过滤
  • 治理:隐私保护、供应链安全、安全评估
  1. 数据摄取(dlt):从API、数据库加载数据到数据仓库
  2. 模型部署:批量作业、实时API、混合系统、事件驱动自动化
  3. 运维:实时监控、漂移检测、自动化再训练、事件响应

现代最佳实践(2026年1月)

它注重执行:

  • 数据摄取模式(REST API、数据库复制、增量加载)
  • 部署模式(批量、在线、混合、流式、事件驱动)
  • 自动化监控,带实时漂移检测
  • 自动化再训练流水线(监控 → 检测 → 触发 → 验证 → 部署)
  • 事件处理,带已验证回滚和事后分析
  • 链接到assets/中的复制粘贴模板

快速参考

任务 工具/框架 命令 使用场景
数据摄取 dlt(数据加载工具) dlt pipeline run, dlt init 从API、数据库加载到数据仓库
批量部署 Airflow, Dagster, Prefect airflow dags trigger, dagster job launch 大型数据集的计划预测
API部署 FastAPI, Flask, TorchServe uvicorn app:app, torchserve --start 实时推理(<500ms延迟)
LLM服务 vLLM, TGI, BentoML vllm serve model, bentoml serve 高吞吐量LLM推理
模型注册表 MLflow, W&B, ZenML mlflow.register_model(), zenml model register 模型版本控制和升级
漂移检测 统计测试 + 监控器 PSI/KS, 嵌入漂移, 预测漂移 检测数据/过程变更并触发审核
监控 Prometheus, Grafana prometheus.yml, Grafana仪表板 指标、警报、SLO跟踪
AgentOps AgentOps, Langfuse, LangSmith agentops.init(), 跟踪可视化 AI代理可观测性、会话回放
事件响应 运行手册, PagerDuty 文档化操作手册, 警报路由 处理故障和性能下降

何时使用此技能

当用户询问ML/LLM/agent系统的部署、运维、监控、事件处理或治理时使用此技能,例如:

  • “如何将此模型部署到生产环境?”
  • “设计一个批量 + 在线评分架构。”
  • “为我们的模型添加监控和漂移检测。”
  • “为此ML服务编写事件运行手册。”
  • “将此LLM/RAG流水线打包为API。”
  • “规划我们的再训练和升级工作流。”
  • “从Stripe API加载数据到Snowflake。”
  • “使用dlt设置增量数据库复制。”
  • “为数据仓库加载构建ELT流水线。”

如果用户仅询问EDA、建模或理论,请优先使用:

  • ai-ml-data-science(EDA、特征、建模、使用SQLMesh的SQL转换)
  • ai-llm(提示工程、微调、评估)
  • ai-rag(检索流水线设计)
  • ai-llm-inference(压缩、spec解码、服务内部)

如果用户询问SQL转换(数据加载后),请优先使用:

  • ai-ml-data-science(SQLMesh模板用于暂存、中间、集市层)

决策树:选择部署策略

用户需要部署:[ML系统]
    ├─ 数据摄取?
    │   ├─ 来自REST API? → dlt REST API模板
    │   ├─ 来自数据库? → dlt数据库源(PostgreSQL, MySQL, MongoDB)
    │   └─ 增量加载? → dlt增量模式(时间戳、ID基础)
    │
    ├─ 模型服务?
    │   ├─ 延迟<500ms? → FastAPI实时API
    │   ├─ 批量预测? → Airflow/Dagster批量流水线
    │   └─ 混合? → 混合(批量特征 + 在线评分)
    │
    ├─ 监控与运维?
    │   ├─ 漂移检测? → Evidently + 自动化再训练触发器
    │   ├─ 性能跟踪? → Prometheus + Grafana仪表板
    │   └─ 事件响应? → 运行手册 + PagerDuty警报
    │
    └─ LLM/RAG生产?
        ├─ 成本优化? → 缓存、提示模板、令牌预算
        └─ 安全性? → 参见ai-mlops技能

核心概念(供应商无关)

  • 生命周期循环:训练 → 验证 → 部署 → 监控 → 响应 → 再训练/退役。
  • 风险控制:访问控制、数据最小化、日志记录和变更管理(NIST AI RMF:https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf)。
  • 可观测性平面:系统指标(延迟/错误)、数据指标(新鲜度/漂移)、质量指标(模型性能)。
  • 事件准备:检测、遏制、回滚和根本原因分析。

做 / 避免

  • 部署前进行可重复检查:评估通过、负载测试、安全审核、回滚计划。
  • 对所有内容进行版本控制:代码、数据、特征、模型工件、提示模板、配置。
  • 定义SLO和预算(延迟/成本/错误率)后进行优化。

避免

  • 避免无审计追踪的手动“点击运维”部署。
  • 避免静默升级;模型/提示变更需要评估 + 金丝雀发布。
  • 避免无行动的漂移仪表板;每个警报都需要所有者和运行手册。

核心模式概述

此技能提供生产就绪的模式和指南,组织为全面参考:

数据与基础设施模式

模式0:数据合约、摄取与血缘 → 参见数据摄取模式

  • 带SLA和版本控制的数据合约
  • 摄取模式(CDC、批量、流式)
  • 血缘跟踪和模式演进
  • 重放和回填程序

模式1:选择部署模式 → 参见部署模式

  • 决策表(批量、在线、混合、流式)
  • 每种模式的使用场景
  • 部署模式选择清单

模式2:标准部署生命周期 → 参见部署生命周期

  • 预部署、部署、观察、操作、演进阶段
  • 环境升级(开发 → 暂存 → 生产)
  • 渐进推出策略(金丝雀、蓝绿)

模式3:打包与模型注册表 → 参见模型注册表模式

  • 模型注册表结构和元数据
  • 打包策略(Docker、ONNX、MLflow)
  • 升级流程(实验 → 生产)
  • 版本控制和治理

服务模式

模式4:批量评分流水线 → 参见部署模式

  • 使用Airflow/Dagster编排
  • 幂等评分作业
  • 验证和回填程序

模式5:实时API评分 → 参见API设计模式

  • 服务设计(HTTP/JSON、gRPC)
  • 输入/输出模式
  • 速率限制、超时、断路器

模式6:混合与特征存储集成 → 参见特征存储模式

  • 批量与在线特征
  • 特征存储架构
  • 训练-服务一致性
  • 时间点正确性

运维模式

模式7:监控与警报 → 参见监控最佳实践

  • 数据、性能和技术指标
  • SLO定义和跟踪
  • 仪表板设计和警报策略

模式8:漂移检测与自动化再训练 → 参见漂移检测指南

  • 自动化再训练触发器
  • 事件驱动再训练流水线

模式9:事件与运行手册 → 参见事件响应操作手册

  • 常见故障模式
  • 检测、诊断、解决
  • 事后程序

模式10:LLM / RAG 在生产环境 → 参见LLM & RAG 生产模式

  • 提示和配置管理
  • 安全性与合规性(PII、越狱防御)
  • 成本优化(令牌预算、缓存)
  • 监控和回退

模式11:跨区域、数据驻留与回滚 → 参见多区域模式

  • 多区域部署架构
  • 数据驻留和租户隔离
  • 灾难恢复和故障转移
  • 区域回滚程序

模式12:在线评估与反馈循环 → 参见在线评估模式

  • 反馈信号收集(隐式、显式)
  • 影子和金丝雀部署
  • 带统计显著性的A/B测试
  • 人类在环标记
  • 自动化再训练节奏

模式13:AgentOps(AI代理运维) → 参见AgentOps模式

  • AI代理的会话跟踪和回放
  • 跨代理运行的成本和延迟跟踪
  • 多代理可视化和调试
  • 工具调用监控
  • 与CrewAI、LangGraph、OpenAI Agents SDK集成

模式14:边缘MLOps与TinyML → 参见边缘MLOps模式

  • 设备感知CI/CD流水线
  • OTA模型更新带回滚
  • 联邦学习运维
  • 边缘漂移检测
  • 间歇连接处理

资源(详细指南)

如需全面运维指南,请参见:

核心基础设施:

服务与API:

  • 部署模式 - 批量、在线、混合、流式部署策略和架构
  • API设计模式 - ML/LLM/RAG API模式、输入/输出模式、可靠性模式、版本控制

运维与可靠性:

安全与治理:

高级模式:

模板

使用这些作为生产工件的复制粘贴起点:

数据摄取(dlt)

用于加载数据到数据仓库和流水线:

使用dlt场景:

  • 从API加载数据(Stripe、HubSpot、Shopify、自定义API)
  • 复制数据库到数据仓库
  • 构建带增量加载的ELT流水线
  • 使用Python管理数据摄取

SQL转换(摄取后)使用:

ai-ml-data-science技能(SQLMesh模板用于暂存/中间/集市层)

部署与打包

监控与运维

导航

资源

模板

数据

外部资源

参见data/sources.json获取关于以下内容的精选参考:

  • 服务框架(FastAPI、Flask、gRPC、TorchServe、KServe、Ray Serve)
  • 编排(Airflow、Dagster、Prefect)
  • 模型注册表和MLOps(MLflow、W&B、Vertex AI、Sagemaker)
  • 监控和可观测性(Prometheus、Grafana、OpenTelemetry、Evidently)
  • 特征存储(Feast、Tecton、Vertex、Databricks)
  • 流式与消息传递(Kafka、Pulsar、Kinesis)
  • LLMOps & RAG基础设施(向量数据库、LLM网关、安全工具)

数据湖与湖仓

如需全面数据湖/湖仓模式(超越dlt摄取),请参见**data-lake-platform**:

  • 表格式: Apache Iceberg、Delta Lake、Apache Hudi
  • 查询引擎: ClickHouse、DuckDB、Apache Doris、StarRocks
  • 替代摄取: Airbyte(基于GUI的连接器)
  • 转换: dbt(SQLMesh替代)
  • 流式: Apache Kafka模式
  • 编排: Dagster、Airflow

此技能专注于ML特定部署、监控和安全。使用data-lake-platform进行通用数据基础设施。

时效性协议(工具推荐)

当用户询问MLOps工具推荐问题时,回答前验证时效性。

触发条件

  • “对于[用例]的最佳MLOps平台是什么?”
  • “我应该使用什么进行[部署/监控/漂移检测]?”
  • “MLOps的最新动态是什么?”
  • “模型注册表/特征存储/可观测性的当前最佳实践?”
  • “MLflow/Kubeflow/Vertex AI在2026年仍然相关吗?”
  • “[MLOps工具A] vs [MLOps工具B]?”
  • “部署[LLM/ML模型]到生产的最佳方式?”
  • “我应该使用什么特征存储?”

最小时效性检查

  1. data/sources.json开始,优先使用add_as_web_search: true的源。
  2. 如果可用网络搜索或浏览,至少确认:(a) 工具的最新发布/文档日期,(b) 活跃维护信号,© 最近的比较/替代帖子。
  3. 如果无法实时搜索,声明您依赖静态知识 + data/sources.json,并推荐验证步骤(POC + 评估 + 推出计划)。

报告内容

搜索后提供:

  • 当前格局: 当前流行的MLOps工具/平台
  • 新兴趋势: 新方法获得关注(LLMOps、GenAI运维)
  • 过时/衰退: 工具或方法失去相关性
  • 推荐: 基于新数据,而非仅静态知识

相关技能

对于相邻主题,参考这些技能:

使用此技能将训练好的模型转化为可靠服务,而非模型本身。