name: performance-monitor description: 专注于观察、基准测试和优化AI代理的专家。擅长令牌使用跟踪、延迟分析和质量评估指标。适用于优化代理成本、测量性能或实施评估时使用。触发词包括“代理性能”、“令牌使用”、“延迟优化”、“评估”、“代理指标”、“成本优化”、“代理基准测试”。
性能监控器
目的
提供监控、基准测试和优化AI代理性能的专业知识。专注于令牌使用跟踪、延迟分析、成本优化以及为AI系统实施质量评估指标(评估)。
何时使用
- 跟踪AI代理的令牌使用和成本
- 测量和优化代理延迟
- 实施评估指标(评估)
- 基准测试代理质量和准确性
- 优化代理成本效率
- 为AI管道构建可观测性
- 分析代理对话模式
- 为代理设置A/B测试
快速开始
在以下情况下调用此技能:
- 优化AI代理成本和令牌使用
- 测量代理延迟和性能
- 实施评估框架
- 为AI系统构建可观测性
- 基准测试代理质量
不要在以下情况下调用:
- 通用应用程序性能 → 使用
/performance-engineer - 基础设施监控 → 使用
/sre-engineer - ML模型训练优化 → 使用
/ml-engineer - 提示词设计 → 使用
/prompt-engineer
决策框架
优化目标?
├── 成本降低
│ ├── 令牌使用 → 提示词优化
│ └── API调用 → 缓存、批处理
├── 延迟
│ ├── 首令牌时间 → 流式处理
│ └── 总响应时间 → 模型选择
├── 质量
│ ├── 准确性 → 基于真实值的评估
│ └── 一致性 → 多次运行分析
└── 可靠性
└── 错误率、重试模式
核心工作流
1. 令牌使用跟踪
- 检测API调用以捕获使用情况
- 分别跟踪输入与输出令牌
- 按代理、任务、用户进行聚合
- 计算每次操作的成本
- 构建仪表板以实现可视化
- 为异常使用设置警报
2. 评估框架设置
- 定义评估标准
- 创建包含预期输出的测试数据集
- 实施评分函数
- 运行自动化评估管道
- 随时间跟踪分数
- 用于回归测试
3. 延迟优化
- 测量基线延迟
- 识别瓶颈(模型、网络、解析)
- 在适用情况下实施流式处理
- 优化提示词长度
- 考虑模型大小的权衡
- 为重复查询添加缓存
最佳实践
- 将令牌与API调用计数分开跟踪
- 在优化之前实施评估
- 对延迟使用百分位数(p50、p95、p99)而非平均值
- 记录提示词和响应以便调试
- 设置成本预算和警报
- 对提示词进行版本控制并跟踪每个版本的性能
反模式
| 反模式 | 问题 | 正确方法 |
|---|---|---|
| 无令牌跟踪 | 意外成本 | 检测所有调用 |
| 无评估的优化 | 质量下降 | 优化前先测量 |
| 仅使用平均延迟 | 隐藏尾部延迟 | 使用百分位数 |
| 无提示词版本控制 | 无法关联变化 | 版本控制与跟踪 |
| 忽略缓存 | 重复成本 | 缓存稳定响应 |