name: ai-agents description: 生产级 AI 代理模式，包含 MCP 集成、代理 RAG、交接协调、多层防护、可观察性、令牌经济学、ROI 框架和构建与否决策指南（现代最佳实践）

AI 代理开发 — 生产技能中心

现代最佳实践（2026年1月）：确定性控制流、有界工具、可审计状态、基于 MCP 的工具集成、交接优先的协调、多层防护、OpenTelemetry 追踪和人在回路控制（OWASP LLM 十大风险：https://owasp.org/www-project-top-10-for-large-language-model-applications/）。

本技能提供生产就绪的操作模式，用于设计、构建、评估和部署 AI 代理。它集中了流程、检查清单、决策规则和模板，用于跨 RAG 代理、工具使用代理、操作系统代理和多代理系统。

无理论。无叙述。仅操作步骤和模板。

何时使用本技能

Codex 应在用户询问以下内容时激活本技能：

设计代理（基于 LLM、基于工具、基于操作系统或多代理）。
确定新代理行为的成熟度和上线风险范围。
创建动作循环、计划、工作流或委派逻辑。
编写工具定义、MCP 工具、模式或验证逻辑。
生成 RAG 管道、检索模块或上下文注入。
构建内存系统（会话、长期、情景、任务）。
创建评估框架、可观察性计划或安全门。
准备 CI/CD、上线、部署或生产操作规范。
生成 /references/ 或 /assets/ 中的任何模板。
实现 MCP 服务器或集成模型上下文协议。
设置代理交接和协调模式。
配置多层防护和安全控制。
评估是否构建代理（构建与否决策）。
计算代理 ROI、令牌成本或成本效益分析。
评估幻觉风险和缓解策略。
决定何时终止代理项目（终止触发条件）。
对于提示框架、检索调优或安全深度，请参见下文的范围边界。

范围边界（使用这些技能进行深度探索）

提示框架和结构化输出 → ai-prompt-engineering
RAG 检索和分块 → ai-rag
搜索调优（BM25/HNSW/混合） → ai-rag
安全/防护 → ai-mlops
推理优化 → ai-llm-inference

默认工作流（生产）

使用决策树（下文）选择架构；生产默认使用工作流/FSM/DAG。
使用 assets/core/agent-template-standard.md（或 assets/core/agent-template-quick.md）起草代理规范。
使用 JSON Schema 指定工具和交接，参考 assets/tools/tool-definition.md 和 references/api-contracts-for-agents.md。
仅在需要时添加检索；从 assets/rag/rag-basic.md 开始，通过 assets/rag/rag-advanced.md + references/rag-patterns.md 扩展。
早期通过 references/evaluation-and-observability.md 添加评估和遥测。
使用 assets/checklists/agent-safety-checklist.md 进行通过/不通过安全检查门。
通过 references/deployment-ci-cd-and-safety.md 计划部署/回滚和安全控制。

快速参考

代理类型	核心控制流	接口	MCP/A2A	何时使用
工作流代理（FSM/DAG）	显式状态转换	状态存储、工具允许列表	MCP	确定性、可审计流
工具使用代理	路由 → 调用工具 → 观察	工具模式、重试/超时	MCP	外部动作（API、数据库、文件）
RAG 代理	检索 → 回答 → 引用	检索器、引用、ACL	MCP	知识基础回答
规划/执行代理	规划 → 执行步骤并设上限	规划提示、步骤预算	MCP (+A2A)	多步问题且有界自治
多代理（协调）	委派 → 合并 → 验证	交接合同、评估门	A2A	专业化且显式交接
操作系统代理	观察 UI → 行动 → 验证	沙盒、UI 基础	MCP	严格防护下的桌面/浏览器控制
代码/SWE 代理	分支 → 编辑 → 测试 → PR	仓库访问、CI 门	MCP	带审查/合并控制的编码任务

框架选择（2026）

框架	架构	最适合	易用性
LangGraph	基于图、有状态	企业、合规、可审计性	中等
OpenAI Agents SDK	工具中心、轻量	快速原型、OpenAI 生态系统	容易
Google ADK	代码优先、多语言	Gemini/Vertex AI、多语言团队	中等
Pydantic AI	类型安全、图 FSM	生产 Python、类型安全	中等
CrewAI	基于角色的团队	团队工作流、内容生成	最容易
AutoGen	对话式	代码生成、研究	中等
AWS Bedrock Agents	托管基础设施	企业 AWS、知识库	容易

详情见 references/modern-best-practices.md 框架比较和选择指南。

决策树：选择代理架构

代理需要做什么？
    ├─ 从知识库回答问题？
    │   ├─ 简单查找？ → RAG 代理（LangChain/LlamaIndex + 向量数据库）
    │   └─ 复杂多步？ → 代理 RAG（迭代检索 + 推理）
    │
    ├─ 执行外部动作（API、工具、函数）？
    │   ├─ 1-3 工具、线性流？ → 工具使用代理（LangGraph + MCP）
    │   └─ 复杂工作流、分支？ → 规划代理（ReAct/计划-执行）
    │
    ├─ 自主编写/修改代码？
    │   ├─ 单文件编辑？ → 带代码工具的工具使用代理
    │   └─ 多文件、问题解决？ → 代码/SWE 代理（HyperAgent 模式）
    │
    ├─ 委派任务给专家？
    │   ├─ 固定工作流？ → 多代理顺序（A → B → C）
    │   ├─ 经理-工人？ → 多代理分层（经理 + 工人）
    │   └─ 动态路由？ → 多代理群聊（协作）
    │
    ├─ 控制桌面/浏览器？
    │   └─ 操作系统代理（Anthropic Computer Use + MCP 用于系统访问）
    │
    └─ 混合（以上组合）？
        └─ 协调的规划代理：
            - 工具使用用于动作（MCP）
            - RAG 用于知识（MCP）
            - 多代理用于委派（A2A）
            - 代码代理用于实现

协议选择：

使用 MCP 用于：工具访问、数据检索、单代理集成
使用 A2A 用于：代理到代理交接、多代理协调、任务委派

核心概念（供应商无关）

控制流选项

反应式：基于用户请求的直接工具路由（快速，如果无界则脆弱）。
工作流（FSM/DAG）：显式状态和转换（生产确定性的默认选择）。
规划/执行：严格预算计划，然后逐步执行（分支不可避免时使用）。
协调多代理：具有验证交接的独立角色（需要专业化时使用）。

内存类型（权衡）

短期（会话）：廉价、短暂；最佳用于对话连续性。
情景（任务）：针对案例/票证范围；支持审计和重放。
长期（档案/知识）：高风险；需要同意、保留限制和来源证明。

失败处理（生产默认）

分类错误：可重试 vs 致命 vs 需要人工干预。
有界重试：最大尝试次数、退避、抖动；避免重试风暴。
回退：降级模式、较小模型、缓存答案或安全拒绝。

做 / 避免

做

保持状态显式和可序列化（可重放运行）。
强制工具允许列表、范围和副作用幂等性。
记录模型调用和工具调用的追踪/指标（OpenTelemetry GenAI 语义约定：https://opentelemetry.io/docs/specs/semconv/gen-ai/）。

避免

避免失控自治（无界循环或步骤计数）。
避免隐藏状态（无法审计的隐式内存）。
避免未经验证/消毒的不受信任工具输出。

导航：经济学和决策框架

是否应该构建代理？

构建与否决策框架 - references/build-vs-not-decision.md
- 10 秒测试（量、成本、错误容忍度）
- 红旗和即时取消资格
- 代理的替代方案（通常更好）
- 带有阶段门的完整决策树
- 开发中和上线后的终止触发条件
- 构建前验证检查清单

代理 ROI 和令牌经济学

代理经济学 - references/agent-economics.md
- 按模型的令牌定价（2026年1月）
- 按代理类型的每任务成本
- ROI 计算公式和层级
- 幻觉成本框架和缓解 ROI
- 投资决策矩阵
- 月度跟踪仪表板

导航：核心概念和模式

治理和成熟度

代理成熟度和治理 - references/agent-maturity-governance.md
- 能力成熟度级别（L0-L4）
- 身份和政策执行
- 舰队控制和注册管理
- 弃用规则和终止开关

现代最佳实践

现代最佳实践 - references/modern-best-practices.md
- 模型上下文协议（MCP）
- 代理到代理协议（A2A）
- 代理 RAG（动态检索）
- 多层防护
- LangGraph 优于 LangChain
- 用于代理的 OpenTelemetry

上下文管理

上下文工程 - references/context-engineering.md
- 渐进式披露
- 会话管理
- 内存来源
- 检索时机
- 多模态上下文

核心操作模式

操作模式 - references/operational-patterns.md
- 代理循环模式（计划 → 行动 → 观察 → 更新）
- 操作系统代理动作循环
- RAG 管道模式
- 工具规范
- 内存系统模式
- 多代理工作流
- 安全和防护
- 可观察性
- 评估模式
- 部署和 CI/CD

导航：协议实现

MCP 实用指南 - references/mcp-practical-guide.md 构建 MCP 服务器、工具集成和标准化数据访问
MCP 服务器构建器 - references/mcp-server-builder.md 面向工作流的 MCP 服务器的端到端检查清单（设计 → 构建 → 测试）
A2A 交接模式 - references/a2a-handoff-patterns.md 代理到代理通信、任务委派和协调协议
协议决策树 - references/protocol-decision-tree.md 何时使用 MCP vs A2A、决策框架和选择标准

导航：代理能力

代理操作 - references/agent-operations-best-practices.md 动作循环、规划、观察和执行模式
RAG 模式 - references/rag-patterns.md 上下文检索、代理 RAG 和混合搜索策略
内存系统 - references/memory-systems.md 会话、长期、情景和任务内存架构
工具设计和验证 - references/tool-design-specs.md 工具模式、验证、错误处理和 MCP 集成

技能打包和共享

技能生命周期 - references/skill-lifecycle.md 脚手架、验证、打包和与团队共享技能（Slack 就绪）
代理的 API 合同 - references/api-contracts-for-agents.md 请求/响应信封、安全门、流式/异步模式、错误分类
多代理模式 - references/multi-agent-patterns.md 经理-工人、顺序、交接和群聊协调
操作系统代理能力 - references/os-agent-capabilities.md 桌面自动化、UI 基础和计算机使用模式
代码/SWE 代理 - references/code-swe-agents.md SE 3.0 范式、自治编码模式、SWE-Bench、HyperAgent 架构

导航：生产操作

评估和可观察性 - references/evaluation-and-observability.md OpenTelemetry GenAI、指标、LLM 作为法官和监控
部署、CI/CD 和安全 - references/deployment-ci-cd-and-safety.md 多层防护、人在回路控制、NIST AI RMF、生产检查清单

导航：模板（复制粘贴就绪）

检查清单

代理设计和安全检查清单 - assets/checklists/agent-safety-checklist.md 通过/不通过安全检查门：权限、人在回路触发条件、评估门、可观察性、回滚

核心代理模板

标准代理模板 - assets/core/agent-template-standard.md 完整生产规范：内存、工具、RAG、评估、可观察性、安全
专业化代理模板 - assets/core/agent-template-specialized.md 具有自定义能力和约束的领域特定代理
快速代理模板 - assets/core/agent-template-quick.md 用于快速原型的最小可行代理

RAG 模板

基础 RAG - assets/rag/rag-basic.md 简单检索增强生成管道
高级 RAG - assets/rag/rag-advanced.md 上下文检索、重排序和代理 RAG 模式
混合检索 - assets/rag/hybrid-retrieval.md 语义 + 关键词搜索与 BM25 融合

工具模板

工具定义 - assets/tools/tool-definition.md 兼容 MCP 的工具模式，带验证和错误处理
工具验证检查清单 - assets/tools/tool-validation-checklist.md 测试、安全和生产就绪检查

多代理模板

经理-工人模板 - assets/multi-agent/manager-worker-template.md 协调模式，带任务委派和结果聚合
评估者-路由器模板 - assets/multi-agent/evaluator-router-template.md 动态路由，带质量评估和领域分类

服务层模板

FastAPI 代理服务 - ../dev-api-design/assets/fastapi/fastapi-complete-api.md 认证、分页、验证、错误处理；扩展模型生命周期负载、SSE、后台任务

外部来源元数据

策划参考 - data/sources.json 跨越标准、协议和生产代理框架的权威来源

共享工具（集中模式 — 提取，不重复）

…/software-clean-code-standard/utilities/llm-utilities.md — 令牌计数、流式、成本估计
…/software-clean-code-standard/utilities/error-handling.md — 效果结果类型、相关 ID
…/software-clean-code-standard/utilities/resilience-utilities.md — p-retry v6、API 调用断路器
…/software-clean-code-standard/utilities/logging-utilities.md — pino v9 + OpenTelemetry 集成
…/software-clean-code-standard/utilities/observability-utilities.md — OpenTelemetry SDK、追踪、指标
…/software-clean-code-standard/utilities/testing-utilities.md — 测试工厂、固定装置、模拟
…/software-clean-code-standard/references/clean-code-standard.md — 规范清洁代码规则（CC-*）用于引用

趋势意识协议

重要：当用户询问关于 AI 代理的推荐问题时，您必须使用网络搜索检查当前趋势后再回答。如果网络搜索不可用，请使用 data/sources.json + 任何可用的网络浏览工具，并明确说明您验证了哪些和假设了哪些。

触发条件

“对于 [用例]，最好的代理框架是什么？”
“我应该使用什么来进行 [多代理/工具使用/协调]？”
“AI 代理的最新动态是什么？”
“[代理架构/MCP/A2A] 的当前最佳实践？”
“在 2026 年，[LangGraph/CrewAI/AutoGen] 仍然相关吗？”
“[代理框架 A] vs [代理框架 B]？”
“构建 [编码代理/RAG 代理/操作系统代理] 的最佳方式？”
“有哪些 MCP 服务器可用？”

必需搜索

搜索："AI 代理框架最佳实践 2026"
搜索："[LangGraph/CrewAI/AutoGen/Semantic Kernel] 比较 2026"
搜索："AI 代理趋势 2026年1月"
搜索："MCP 服务器可用 2026"

报告内容

搜索后，提供：

当前格局：现在流行的代理框架是什么
新兴趋势：新模式获得关注（MCP、A2A、代理编码）
弃用/下降：框架或模式失去相关性
推荐：基于新数据，而不仅是静态知识

示例主题（用新搜索验证）

代理框架（LangGraph、CrewAI、AutoGen、Semantic Kernel、Pydantic AI）
MCP 生态系统（可用服务器、新集成）
代理编码（Codex CLI、Claude Code、Cursor、Windsurf、Cline）
多代理模式（分层、协作、竞争）
工具使用协议（MCP、函数调用）
代理评估（SWE-Bench、AgentBench、GAIA）
操作系统/计算机使用代理（computer-use API、浏览器自动化）

使用说明

现代标准：默认使用 MCP 进行工具、代理 RAG 进行检索、交接优先进行多代理
轻量级 SKILL.md：使用此文件进行快速参考和导航
钻取资源：参考详细资源以获取实现指导
复制粘贴模板：当用户要求结构化工件时使用模板
外部来源：参考 data/sources.json 获取权威文档链接
无理论：绝不包含理论解释；仅操作步骤

关键现代迁移

传统 → 现代：

自定义 API → 模型上下文协议（MCP）
静态 RAG → 具有上下文检索的代理 RAG
临时交接 → 带有 JSON Schema 的版本化交接 API
单层防护 → 多层防御（5+ 层）
LangChain 代理 → LangGraph 有状态工作流
自定义可观察性 → OpenTelemetry GenAI 标准
模型中心 → 上下文工程中心

AI 原生 SDLC 模板

使用 assets/agent-template-ainative-sdlc.md 用于委托 → 审查 → 拥有运行手册（防护 + 输出检查清单）。