AI代理开发技能 ai-agents

本技能提供 AI 代理开发的生产级操作模式,涵盖 MCP 集成、RAG 应用、交接协调、多层防护等关键词,用于设计、构建和部署 AI 代理,提升 SEO 搜索效果。

AI智能体 0 次安装 0 次浏览 更新于 3/7/2026

name: ai-agents description: 生产级 AI 代理模式,包含 MCP 集成、代理 RAG、交接协调、多层防护、可观察性、令牌经济学、ROI 框架和构建与否决策指南(现代最佳实践)

AI 代理开发 — 生产技能中心

现代最佳实践(2026年1月):确定性控制流、有界工具、可审计状态、基于 MCP 的工具集成、交接优先的协调、多层防护、OpenTelemetry 追踪和人在回路控制(OWASP LLM 十大风险:https://owasp.org/www-project-top-10-for-large-language-model-applications/)。

本技能提供生产就绪的操作模式,用于设计、构建、评估和部署 AI 代理。 它集中了流程检查清单决策规则模板,用于跨 RAG 代理、工具使用代理、操作系统代理和多代理系统。

无理论。无叙述。仅操作步骤和模板。


何时使用本技能

Codex 应在用户询问以下内容时激活本技能:

  • 设计代理(基于 LLM、基于工具、基于操作系统或多代理)。
  • 确定新代理行为的成熟度和上线风险范围。
  • 创建动作循环、计划、工作流或委派逻辑。
  • 编写工具定义、MCP 工具、模式或验证逻辑。
  • 生成 RAG 管道、检索模块或上下文注入。
  • 构建内存系统(会话、长期、情景、任务)。
  • 创建评估框架、可观察性计划或安全门。
  • 准备 CI/CD、上线、部署或生产操作规范。
  • 生成 /references//assets/ 中的任何模板。
  • 实现 MCP 服务器或集成模型上下文协议。
  • 设置代理交接和协调模式。
  • 配置多层防护和安全控制。
  • 评估是否构建代理(构建与否决策)。
  • 计算代理 ROI、令牌成本或成本效益分析。
  • 评估幻觉风险和缓解策略。
  • 决定何时终止代理项目(终止触发条件)。
  • 对于提示框架、检索调优或安全深度,请参见下文的范围边界。

范围边界(使用这些技能进行深度探索)

默认工作流(生产)


快速参考

代理类型 核心控制流 接口 MCP/A2A 何时使用
工作流代理(FSM/DAG) 显式状态转换 状态存储、工具允许列表 MCP 确定性、可审计流
工具使用代理 路由 → 调用工具 → 观察 工具模式、重试/超时 MCP 外部动作(API、数据库、文件)
RAG 代理 检索 → 回答 → 引用 检索器、引用、ACL MCP 知识基础回答
规划/执行代理 规划 → 执行步骤并设上限 规划提示、步骤预算 MCP (+A2A) 多步问题且有界自治
多代理(协调) 委派 → 合并 → 验证 交接合同、评估门 A2A 专业化且显式交接
操作系统代理 观察 UI → 行动 → 验证 沙盒、UI 基础 MCP 严格防护下的桌面/浏览器控制
代码/SWE 代理 分支 → 编辑 → 测试 → PR 仓库访问、CI 门 MCP 带审查/合并控制的编码任务

框架选择(2026)

框架 架构 最适合 易用性
LangGraph 基于图、有状态 企业、合规、可审计性 中等
OpenAI Agents SDK 工具中心、轻量 快速原型、OpenAI 生态系统 容易
Google ADK 代码优先、多语言 Gemini/Vertex AI、多语言团队 中等
Pydantic AI 类型安全、图 FSM 生产 Python、类型安全 中等
CrewAI 基于角色的团队 团队工作流、内容生成 最容易
AutoGen 对话式 代码生成、研究 中等
AWS Bedrock Agents 托管基础设施 企业 AWS、知识库 容易

详情见 references/modern-best-practices.md 框架比较和选择指南。


决策树:选择代理架构

代理需要做什么?
    ├─ 从知识库回答问题?
    │   ├─ 简单查找? → RAG 代理(LangChain/LlamaIndex + 向量数据库)
    │   └─ 复杂多步? → 代理 RAG(迭代检索 + 推理)
    │
    ├─ 执行外部动作(API、工具、函数)?
    │   ├─ 1-3 工具、线性流? → 工具使用代理(LangGraph + MCP)
    │   └─ 复杂工作流、分支? → 规划代理(ReAct/计划-执行)
    │
    ├─ 自主编写/修改代码?
    │   ├─ 单文件编辑? → 带代码工具的工具使用代理
    │   └─ 多文件、问题解决? → 代码/SWE 代理(HyperAgent 模式)
    │
    ├─ 委派任务给专家?
    │   ├─ 固定工作流? → 多代理顺序(A → B → C)
    │   ├─ 经理-工人? → 多代理分层(经理 + 工人)
    │   └─ 动态路由? → 多代理群聊(协作)
    │
    ├─ 控制桌面/浏览器?
    │   └─ 操作系统代理(Anthropic Computer Use + MCP 用于系统访问)
    │
    └─ 混合(以上组合)?
        └─ 协调的规划代理:
            - 工具使用用于动作(MCP)
            - RAG 用于知识(MCP)
            - 多代理用于委派(A2A)
            - 代码代理用于实现

协议选择

  • 使用 MCP 用于:工具访问、数据检索、单代理集成
  • 使用 A2A 用于:代理到代理交接、多代理协调、任务委派

核心概念(供应商无关)

控制流选项

  • 反应式:基于用户请求的直接工具路由(快速,如果无界则脆弱)。
  • 工作流(FSM/DAG):显式状态和转换(生产确定性的默认选择)。
  • 规划/执行:严格预算计划,然后逐步执行(分支不可避免时使用)。
  • 协调多代理:具有验证交接的独立角色(需要专业化时使用)。

内存类型(权衡)

  • 短期(会话):廉价、短暂;最佳用于对话连续性。
  • 情景(任务):针对案例/票证范围;支持审计和重放。
  • 长期(档案/知识):高风险;需要同意、保留限制和来源证明。

失败处理(生产默认)

  • 分类错误:可重试 vs 致命 vs 需要人工干预。
  • 有界重试:最大尝试次数、退避、抖动;避免重试风暴。
  • 回退:降级模式、较小模型、缓存答案或安全拒绝。

做 / 避免

避免

  • 避免失控自治(无界循环或步骤计数)。
  • 避免隐藏状态(无法审计的隐式内存)。
  • 避免未经验证/消毒的不受信任工具输出。

导航:经济学和决策框架

是否应该构建代理?

  • 构建与否决策框架 - references/build-vs-not-decision.md
    • 10 秒测试(量、成本、错误容忍度)
    • 红旗和即时取消资格
    • 代理的替代方案(通常更好)
    • 带有阶段门的完整决策树
    • 开发中和上线后的终止触发条件
    • 构建前验证检查清单

代理 ROI 和令牌经济学

  • 代理经济学 - references/agent-economics.md
    • 按模型的令牌定价(2026年1月)
    • 按代理类型的每任务成本
    • ROI 计算公式和层级
    • 幻觉成本框架和缓解 ROI
    • 投资决策矩阵
    • 月度跟踪仪表板

导航:核心概念和模式

治理和成熟度

现代最佳实践

  • 现代最佳实践 - references/modern-best-practices.md
    • 模型上下文协议(MCP)
    • 代理到代理协议(A2A)
    • 代理 RAG(动态检索)
    • 多层防护
    • LangGraph 优于 LangChain
    • 用于代理的 OpenTelemetry

上下文管理

核心操作模式

  • 操作模式 - references/operational-patterns.md
    • 代理循环模式(计划 → 行动 → 观察 → 更新)
    • 操作系统代理动作循环
    • RAG 管道模式
    • 工具规范
    • 内存系统模式
    • 多代理工作流
    • 安全和防护
    • 可观察性
    • 评估模式
    • 部署和 CI/CD

导航:协议实现


导航:代理能力

技能打包和共享


导航:生产操作


导航:模板(复制粘贴就绪)

检查清单

核心代理模板

RAG 模板

工具模板

多代理模板

服务层模板


外部来源元数据

  • 策划参考 - data/sources.json 跨越标准、协议和生产代理框架的权威来源

共享工具(集中模式 — 提取,不重复)


趋势意识协议

重要:当用户询问关于 AI 代理的推荐问题时,您必须使用网络搜索检查当前趋势后再回答。 如果网络搜索不可用,请使用 data/sources.json + 任何可用的网络浏览工具,并明确说明您验证了哪些和假设了哪些。

触发条件

  • “对于 [用例],最好的代理框架是什么?”
  • “我应该使用什么来进行 [多代理/工具使用/协调]?”
  • “AI 代理的最新动态是什么?”
  • “[代理架构/MCP/A2A] 的当前最佳实践?”
  • “在 2026 年,[LangGraph/CrewAI/AutoGen] 仍然相关吗?”
  • “[代理框架 A] vs [代理框架 B]?”
  • “构建 [编码代理/RAG 代理/操作系统代理] 的最佳方式?”
  • “有哪些 MCP 服务器可用?”

必需搜索

  1. 搜索:"AI 代理框架最佳实践 2026"
  2. 搜索:"[LangGraph/CrewAI/AutoGen/Semantic Kernel] 比较 2026"
  3. 搜索:"AI 代理趋势 2026年1月"
  4. 搜索:"MCP 服务器可用 2026"

报告内容

搜索后,提供:

  • 当前格局:现在流行的代理框架是什么
  • 新兴趋势:新模式获得关注(MCP、A2A、代理编码)
  • 弃用/下降:框架或模式失去相关性
  • 推荐:基于新数据,而不仅是静态知识

示例主题(用新搜索验证)

  • 代理框架(LangGraph、CrewAI、AutoGen、Semantic Kernel、Pydantic AI)
  • MCP 生态系统(可用服务器、新集成)
  • 代理编码(Codex CLI、Claude Code、Cursor、Windsurf、Cline)
  • 多代理模式(分层、协作、竞争)
  • 工具使用协议(MCP、函数调用)
  • 代理评估(SWE-Bench、AgentBench、GAIA)
  • 操作系统/计算机使用代理(computer-use API、浏览器自动化)

相关技能

本技能与补充技能集成:

核心依赖

生产和操作

支持模式

使用模式:从此处开始用于代理架构,然后参考专业技能以获取深度实现细节。


使用说明

  • 现代标准:默认使用 MCP 进行工具、代理 RAG 进行检索、交接优先进行多代理
  • 轻量级 SKILL.md:使用此文件进行快速参考和导航
  • 钻取资源:参考详细资源以获取实现指导
  • 复制粘贴模板:当用户要求结构化工件时使用模板
  • 外部来源:参考 data/sources.json 获取权威文档链接
  • 无理论:绝不包含理论解释;仅操作步骤

关键现代迁移

传统 → 现代

  • 自定义 API → 模型上下文协议(MCP)
  • 静态 RAG → 具有上下文检索的代理 RAG
  • 临时交接 → 带有 JSON Schema 的版本化交接 API
  • 单层防护 → 多层防御(5+ 层)
  • LangChain 代理 → LangGraph 有状态工作流
  • 自定义可观察性 → OpenTelemetry GenAI 标准
  • 模型中心 → 上下文工程中心

AI 原生 SDLC 模板