name: ai-agents description: 生产级 AI 代理模式,包含 MCP 集成、代理 RAG、交接协调、多层防护、可观察性、令牌经济学、ROI 框架和构建与否决策指南(现代最佳实践)
AI 代理开发 — 生产技能中心
现代最佳实践(2026年1月):确定性控制流、有界工具、可审计状态、基于 MCP 的工具集成、交接优先的协调、多层防护、OpenTelemetry 追踪和人在回路控制(OWASP LLM 十大风险:https://owasp.org/www-project-top-10-for-large-language-model-applications/)。
本技能提供生产就绪的操作模式,用于设计、构建、评估和部署 AI 代理。 它集中了流程、检查清单、决策规则和模板,用于跨 RAG 代理、工具使用代理、操作系统代理和多代理系统。
无理论。无叙述。仅操作步骤和模板。
何时使用本技能
Codex 应在用户询问以下内容时激活本技能:
- 设计代理(基于 LLM、基于工具、基于操作系统或多代理)。
- 确定新代理行为的成熟度和上线风险范围。
- 创建动作循环、计划、工作流或委派逻辑。
- 编写工具定义、MCP 工具、模式或验证逻辑。
- 生成 RAG 管道、检索模块或上下文注入。
- 构建内存系统(会话、长期、情景、任务)。
- 创建评估框架、可观察性计划或安全门。
- 准备 CI/CD、上线、部署或生产操作规范。
- 生成
/references/或/assets/中的任何模板。 - 实现 MCP 服务器或集成模型上下文协议。
- 设置代理交接和协调模式。
- 配置多层防护和安全控制。
- 评估是否构建代理(构建与否决策)。
- 计算代理 ROI、令牌成本或成本效益分析。
- 评估幻觉风险和缓解策略。
- 决定何时终止代理项目(终止触发条件)。
- 对于提示框架、检索调优或安全深度,请参见下文的范围边界。
范围边界(使用这些技能进行深度探索)
- 提示框架和结构化输出 → ai-prompt-engineering
- RAG 检索和分块 → ai-rag
- 搜索调优(BM25/HNSW/混合) → ai-rag
- 安全/防护 → ai-mlops
- 推理优化 → ai-llm-inference
默认工作流(生产)
- 使用决策树(下文)选择架构;生产默认使用工作流/FSM/DAG。
- 使用
assets/core/agent-template-standard.md(或assets/core/agent-template-quick.md)起草代理规范。 - 使用 JSON Schema 指定工具和交接,参考
assets/tools/tool-definition.md和references/api-contracts-for-agents.md。 - 仅在需要时添加检索;从
assets/rag/rag-basic.md开始,通过assets/rag/rag-advanced.md+references/rag-patterns.md扩展。 - 早期通过
references/evaluation-and-observability.md添加评估和遥测。 - 使用
assets/checklists/agent-safety-checklist.md进行通过/不通过安全检查门。 - 通过
references/deployment-ci-cd-and-safety.md计划部署/回滚和安全控制。
快速参考
| 代理类型 | 核心控制流 | 接口 | MCP/A2A | 何时使用 |
|---|---|---|---|---|
| 工作流代理(FSM/DAG) | 显式状态转换 | 状态存储、工具允许列表 | MCP | 确定性、可审计流 |
| 工具使用代理 | 路由 → 调用工具 → 观察 | 工具模式、重试/超时 | MCP | 外部动作(API、数据库、文件) |
| RAG 代理 | 检索 → 回答 → 引用 | 检索器、引用、ACL | MCP | 知识基础回答 |
| 规划/执行代理 | 规划 → 执行步骤并设上限 | 规划提示、步骤预算 | MCP (+A2A) | 多步问题且有界自治 |
| 多代理(协调) | 委派 → 合并 → 验证 | 交接合同、评估门 | A2A | 专业化且显式交接 |
| 操作系统代理 | 观察 UI → 行动 → 验证 | 沙盒、UI 基础 | MCP | 严格防护下的桌面/浏览器控制 |
| 代码/SWE 代理 | 分支 → 编辑 → 测试 → PR | 仓库访问、CI 门 | MCP | 带审查/合并控制的编码任务 |
框架选择(2026)
| 框架 | 架构 | 最适合 | 易用性 |
|---|---|---|---|
| LangGraph | 基于图、有状态 | 企业、合规、可审计性 | 中等 |
| OpenAI Agents SDK | 工具中心、轻量 | 快速原型、OpenAI 生态系统 | 容易 |
| Google ADK | 代码优先、多语言 | Gemini/Vertex AI、多语言团队 | 中等 |
| Pydantic AI | 类型安全、图 FSM | 生产 Python、类型安全 | 中等 |
| CrewAI | 基于角色的团队 | 团队工作流、内容生成 | 最容易 |
| AutoGen | 对话式 | 代码生成、研究 | 中等 |
| AWS Bedrock Agents | 托管基础设施 | 企业 AWS、知识库 | 容易 |
详情见 references/modern-best-practices.md 框架比较和选择指南。
决策树:选择代理架构
代理需要做什么?
├─ 从知识库回答问题?
│ ├─ 简单查找? → RAG 代理(LangChain/LlamaIndex + 向量数据库)
│ └─ 复杂多步? → 代理 RAG(迭代检索 + 推理)
│
├─ 执行外部动作(API、工具、函数)?
│ ├─ 1-3 工具、线性流? → 工具使用代理(LangGraph + MCP)
│ └─ 复杂工作流、分支? → 规划代理(ReAct/计划-执行)
│
├─ 自主编写/修改代码?
│ ├─ 单文件编辑? → 带代码工具的工具使用代理
│ └─ 多文件、问题解决? → 代码/SWE 代理(HyperAgent 模式)
│
├─ 委派任务给专家?
│ ├─ 固定工作流? → 多代理顺序(A → B → C)
│ ├─ 经理-工人? → 多代理分层(经理 + 工人)
│ └─ 动态路由? → 多代理群聊(协作)
│
├─ 控制桌面/浏览器?
│ └─ 操作系统代理(Anthropic Computer Use + MCP 用于系统访问)
│
└─ 混合(以上组合)?
└─ 协调的规划代理:
- 工具使用用于动作(MCP)
- RAG 用于知识(MCP)
- 多代理用于委派(A2A)
- 代码代理用于实现
协议选择:
- 使用 MCP 用于:工具访问、数据检索、单代理集成
- 使用 A2A 用于:代理到代理交接、多代理协调、任务委派
核心概念(供应商无关)
控制流选项
- 反应式:基于用户请求的直接工具路由(快速,如果无界则脆弱)。
- 工作流(FSM/DAG):显式状态和转换(生产确定性的默认选择)。
- 规划/执行:严格预算计划,然后逐步执行(分支不可避免时使用)。
- 协调多代理:具有验证交接的独立角色(需要专业化时使用)。
内存类型(权衡)
- 短期(会话):廉价、短暂;最佳用于对话连续性。
- 情景(任务):针对案例/票证范围;支持审计和重放。
- 长期(档案/知识):高风险;需要同意、保留限制和来源证明。
失败处理(生产默认)
- 分类错误:可重试 vs 致命 vs 需要人工干预。
- 有界重试:最大尝试次数、退避、抖动;避免重试风暴。
- 回退:降级模式、较小模型、缓存答案或安全拒绝。
做 / 避免
做
- 保持状态显式和可序列化(可重放运行)。
- 强制工具允许列表、范围和副作用幂等性。
- 记录模型调用和工具调用的追踪/指标(OpenTelemetry GenAI 语义约定:https://opentelemetry.io/docs/specs/semconv/gen-ai/)。
避免
- 避免失控自治(无界循环或步骤计数)。
- 避免隐藏状态(无法审计的隐式内存)。
- 避免未经验证/消毒的不受信任工具输出。
导航:经济学和决策框架
是否应该构建代理?
- 构建与否决策框架 -
references/build-vs-not-decision.md- 10 秒测试(量、成本、错误容忍度)
- 红旗和即时取消资格
- 代理的替代方案(通常更好)
- 带有阶段门的完整决策树
- 开发中和上线后的终止触发条件
- 构建前验证检查清单
代理 ROI 和令牌经济学
- 代理经济学 -
references/agent-economics.md- 按模型的令牌定价(2026年1月)
- 按代理类型的每任务成本
- ROI 计算公式和层级
- 幻觉成本框架和缓解 ROI
- 投资决策矩阵
- 月度跟踪仪表板
导航:核心概念和模式
治理和成熟度
- 代理成熟度和治理 -
references/agent-maturity-governance.md- 能力成熟度级别(L0-L4)
- 身份和政策执行
- 舰队控制和注册管理
- 弃用规则和终止开关
现代最佳实践
- 现代最佳实践 -
references/modern-best-practices.md- 模型上下文协议(MCP)
- 代理到代理协议(A2A)
- 代理 RAG(动态检索)
- 多层防护
- LangGraph 优于 LangChain
- 用于代理的 OpenTelemetry
上下文管理
- 上下文工程 -
references/context-engineering.md- 渐进式披露
- 会话管理
- 内存来源
- 检索时机
- 多模态上下文
核心操作模式
- 操作模式 -
references/operational-patterns.md- 代理循环模式(计划 → 行动 → 观察 → 更新)
- 操作系统代理动作循环
- RAG 管道模式
- 工具规范
- 内存系统模式
- 多代理工作流
- 安全和防护
- 可观察性
- 评估模式
- 部署和 CI/CD
导航:协议实现
-
MCP 实用指南 -
references/mcp-practical-guide.md构建 MCP 服务器、工具集成和标准化数据访问 -
MCP 服务器构建器 -
references/mcp-server-builder.md面向工作流的 MCP 服务器的端到端检查清单(设计 → 构建 → 测试) -
A2A 交接模式 -
references/a2a-handoff-patterns.md代理到代理通信、任务委派和协调协议 -
协议决策树 -
references/protocol-decision-tree.md何时使用 MCP vs A2A、决策框架和选择标准
导航:代理能力
-
代理操作 -
references/agent-operations-best-practices.md动作循环、规划、观察和执行模式 -
RAG 模式 -
references/rag-patterns.md上下文检索、代理 RAG 和混合搜索策略 -
内存系统 -
references/memory-systems.md会话、长期、情景和任务内存架构 -
工具设计和验证 -
references/tool-design-specs.md工具模式、验证、错误处理和 MCP 集成
技能打包和共享
-
技能生命周期 -
references/skill-lifecycle.md脚手架、验证、打包和与团队共享技能(Slack 就绪) -
代理的 API 合同 -
references/api-contracts-for-agents.md请求/响应信封、安全门、流式/异步模式、错误分类 -
多代理模式 -
references/multi-agent-patterns.md经理-工人、顺序、交接和群聊协调 -
操作系统代理能力 -
references/os-agent-capabilities.md桌面自动化、UI 基础和计算机使用模式 -
代码/SWE 代理 -
references/code-swe-agents.mdSE 3.0 范式、自治编码模式、SWE-Bench、HyperAgent 架构
导航:生产操作
-
评估和可观察性 -
references/evaluation-and-observability.mdOpenTelemetry GenAI、指标、LLM 作为法官和监控 -
部署、CI/CD 和安全 -
references/deployment-ci-cd-and-safety.md多层防护、人在回路控制、NIST AI RMF、生产检查清单
导航:模板(复制粘贴就绪)
检查清单
- 代理设计和安全检查清单 -
assets/checklists/agent-safety-checklist.md通过/不通过安全检查门:权限、人在回路触发条件、评估门、可观察性、回滚
核心代理模板
-
标准代理模板 -
assets/core/agent-template-standard.md完整生产规范:内存、工具、RAG、评估、可观察性、安全 -
专业化代理模板 -
assets/core/agent-template-specialized.md具有自定义能力和约束的领域特定代理 -
快速代理模板 -
assets/core/agent-template-quick.md用于快速原型的最小可行代理
RAG 模板
-
基础 RAG -
assets/rag/rag-basic.md简单检索增强生成管道 -
高级 RAG -
assets/rag/rag-advanced.md上下文检索、重排序和代理 RAG 模式 -
混合检索 -
assets/rag/hybrid-retrieval.md语义 + 关键词搜索与 BM25 融合
工具模板
-
工具定义 -
assets/tools/tool-definition.md兼容 MCP 的工具模式,带验证和错误处理 -
工具验证检查清单 -
assets/tools/tool-validation-checklist.md测试、安全和生产就绪检查
多代理模板
-
经理-工人模板 -
assets/multi-agent/manager-worker-template.md协调模式,带任务委派和结果聚合 -
评估者-路由器模板 -
assets/multi-agent/evaluator-router-template.md动态路由,带质量评估和领域分类
服务层模板
- FastAPI 代理服务 -
../dev-api-design/assets/fastapi/fastapi-complete-api.md认证、分页、验证、错误处理;扩展模型生命周期负载、SSE、后台任务
外部来源元数据
- 策划参考 -
data/sources.json跨越标准、协议和生产代理框架的权威来源
共享工具(集中模式 — 提取,不重复)
- …/software-clean-code-standard/utilities/llm-utilities.md — 令牌计数、流式、成本估计
- …/software-clean-code-standard/utilities/error-handling.md — 效果结果类型、相关 ID
- …/software-clean-code-standard/utilities/resilience-utilities.md — p-retry v6、API 调用断路器
- …/software-clean-code-standard/utilities/logging-utilities.md — pino v9 + OpenTelemetry 集成
- …/software-clean-code-standard/utilities/observability-utilities.md — OpenTelemetry SDK、追踪、指标
- …/software-clean-code-standard/utilities/testing-utilities.md — 测试工厂、固定装置、模拟
- …/software-clean-code-standard/references/clean-code-standard.md — 规范清洁代码规则(
CC-*)用于引用
趋势意识协议
重要:当用户询问关于 AI 代理的推荐问题时,您必须使用网络搜索检查当前趋势后再回答。
如果网络搜索不可用,请使用 data/sources.json + 任何可用的网络浏览工具,并明确说明您验证了哪些和假设了哪些。
触发条件
- “对于 [用例],最好的代理框架是什么?”
- “我应该使用什么来进行 [多代理/工具使用/协调]?”
- “AI 代理的最新动态是什么?”
- “[代理架构/MCP/A2A] 的当前最佳实践?”
- “在 2026 年,[LangGraph/CrewAI/AutoGen] 仍然相关吗?”
- “[代理框架 A] vs [代理框架 B]?”
- “构建 [编码代理/RAG 代理/操作系统代理] 的最佳方式?”
- “有哪些 MCP 服务器可用?”
必需搜索
- 搜索:
"AI 代理框架最佳实践 2026" - 搜索:
"[LangGraph/CrewAI/AutoGen/Semantic Kernel] 比较 2026" - 搜索:
"AI 代理趋势 2026年1月" - 搜索:
"MCP 服务器可用 2026"
报告内容
搜索后,提供:
- 当前格局:现在流行的代理框架是什么
- 新兴趋势:新模式获得关注(MCP、A2A、代理编码)
- 弃用/下降:框架或模式失去相关性
- 推荐:基于新数据,而不仅是静态知识
示例主题(用新搜索验证)
- 代理框架(LangGraph、CrewAI、AutoGen、Semantic Kernel、Pydantic AI)
- MCP 生态系统(可用服务器、新集成)
- 代理编码(Codex CLI、Claude Code、Cursor、Windsurf、Cline)
- 多代理模式(分层、协作、竞争)
- 工具使用协议(MCP、函数调用)
- 代理评估(SWE-Bench、AgentBench、GAIA)
- 操作系统/计算机使用代理(computer-use API、浏览器自动化)
相关技能
本技能与补充技能集成:
核心依赖
../ai-llm/- LLM 模式、提示工程和代理的模型选择../ai-rag/- 深度 RAG 实现:分块、嵌入、重排序../ai-prompt-engineering/- 系统提示设计、少量示例模式、推理策略
生产和操作
../qa-observability/- OpenTelemetry、指标、分布式追踪../software-security-appsec/- OWASP 十大、输入验证、安全工具设计../ops-devops-platform/- CI/CD 管道、部署策略、基础设施
支持模式
../dev-api-design/- 代理 API 和工具接口的 REST/GraphQL 设计../ai-mlops/- 模型部署、监控、漂移检测../qa-debugging/- 代理调试、错误分析、根本原因调查
使用模式:从此处开始用于代理架构,然后参考专业技能以获取深度实现细节。
使用说明
- 现代标准:默认使用 MCP 进行工具、代理 RAG 进行检索、交接优先进行多代理
- 轻量级 SKILL.md:使用此文件进行快速参考和导航
- 钻取资源:参考详细资源以获取实现指导
- 复制粘贴模板:当用户要求结构化工件时使用模板
- 外部来源:参考
data/sources.json获取权威文档链接 - 无理论:绝不包含理论解释;仅操作步骤
关键现代迁移
传统 → 现代:
- 自定义 API → 模型上下文协议(MCP)
- 静态 RAG → 具有上下文检索的代理 RAG
- 临时交接 → 带有 JSON Schema 的版本化交接 API
- 单层防护 → 多层防御(5+ 层)
- LangChain 代理 → LangGraph 有状态工作流
- 自定义可观察性 → OpenTelemetry GenAI 标准
- 模型中心 → 上下文工程中心
AI 原生 SDLC 模板
- 使用
assets/agent-template-ainative-sdlc.md用于委托 → 审查 → 拥有运行手册(防护 + 输出检查清单)。