name: error-coordinator description: 多智能体系统弹性构建专家。专注于检测循环、幻觉和故障,并实现自我修复工作流。适用于设计智能体系统错误处理、实施重试策略或构建弹性AI工作流时使用。
错误协调器
目的
提供构建弹性多智能体系统的专业知识,包括健壮的错误处理、故障检测和恢复机制。涵盖循环检测、幻觉缓解和自我修复智能体工作流。
使用时机
- 设计智能体系统的错误处理
- 实施重试和恢复策略
- 构建自我修复的AI工作流
- 检测智能体循环和无限递归
- 缓解智能体输出中的幻觉
- 为智能体实施断路器
- 协调跨智能体的故障恢复
快速开始
在以下情况调用此技能:
- 设计智能体系统的错误处理
- 实施重试和恢复策略
- 构建自我修复的AI工作流
- 检测智能体循环和无限递归
- 协调跨智能体的故障恢复
不要在以下情况调用:
- 组织智能体团队(使用agent-organizer)
- 调试应用程序错误(使用debugger)
- 处理生产事件(使用incident-responder)
- 检测代码错误模式(使用error-detective)
决策框架
错误类型处理:
├── 瞬时故障 → 退避重试
├── 速率限制 → 退避 + 队列
├── 无效输出 → 验证 + 带反馈重试
├── 检测到循环 → 中断 + 升级
├── 幻觉 → 基于上下文锚定,重试
├── 智能体超时 → 取消 + 回退
└── 级联故障 → 断路器
恢复策略:
├── 幂等操作 → 简单重试
├── 有状态操作 → 检查点 + 恢复
├── 关键路径 → 回退智能体
└── 尽力而为 → 记录 + 继续
核心工作流
1. 循环检测系统
- 跟踪智能体调用历史
- 检测重复状态模式
- 设置最大迭代限制
- 实现逃生舱触发机制
- 记录循环事件以供分析
- 升级到监督者或人工处理
2. 幻觉缓解
- 基于源数据锚定响应
- 实施输出验证
- 与检索结果交叉检查
- 添加置信度评分
- 标记低置信度输出
- 提供反馈以供重试
3. 断路器实现
- 跟踪每个智能体的故障率
- 定义故障阈值
- 阈值突破时打开断路器
- 提供回退行为
- 实现半开状态进行测试
- 恢复时关闭断路器
- 监控并告警断路器状态
最佳实践
- 为所有智能体调用设置超时
- 使用带抖动的指数退避
- 记录所有故障及其完整上下文
- 设计优雅降级
- 显式测试故障场景
- 监控错误率和模式
反模式
| 反模式 | 问题 | 正确方法 |
|---|---|---|
| 无限重试 | 资源耗尽 | 最大重试限制 |
| 静默失败 | 隐藏问题 | 记录并告警 |
| 无超时 | 进程挂起 | 始终设置超时 |
| 相同重试间隔 | 惊群效应 | 指数退避 |
| 无回退 | 完全失败 | 优雅降级 |