name: performance-monitor description: 专注于观察、基准测试和优化AI代理的专家。擅长令牌使用跟踪、延迟分析和质量评估指标。适用于优化代理成本、测量性能或实施评估时使用。触发词包括“代理性能”、“令牌使用”、“延迟优化”、“评估”、“代理指标”、“成本优化”、“代理基准测试”。

性能监控器

目的

提供监控、基准测试和优化AI代理性能的专业知识。专注于令牌使用跟踪、延迟分析、成本优化以及为AI系统实施质量评估指标（评估）。

何时使用

跟踪AI代理的令牌使用和成本
测量和优化代理延迟
实施评估指标（评估）
基准测试代理质量和准确性
优化代理成本效率
为AI管道构建可观测性
分析代理对话模式
为代理设置A/B测试

快速开始

在以下情况下调用此技能：

优化AI代理成本和令牌使用
测量代理延迟和性能
实施评估框架
为AI系统构建可观测性
基准测试代理质量

不要在以下情况下调用：

通用应用程序性能 → 使用 /performance-engineer
基础设施监控 → 使用 /sre-engineer
ML模型训练优化 → 使用 /ml-engineer
提示词设计 → 使用 /prompt-engineer

决策框架

优化目标？
├── 成本降低
│   ├── 令牌使用 → 提示词优化
│   └── API调用 → 缓存、批处理
├── 延迟
│   ├── 首令牌时间 → 流式处理
│   └── 总响应时间 → 模型选择
├── 质量
│   ├── 准确性 → 基于真实值的评估
│   └── 一致性 → 多次运行分析
└── 可靠性
    └── 错误率、重试模式

核心工作流

1. 令牌使用跟踪

检测API调用以捕获使用情况
分别跟踪输入与输出令牌
按代理、任务、用户进行聚合
计算每次操作的成本
构建仪表板以实现可视化
为异常使用设置警报

2. 评估框架设置

定义评估标准
创建包含预期输出的测试数据集
实施评分函数
运行自动化评估管道
随时间跟踪分数
用于回归测试

3. 延迟优化

测量基线延迟
识别瓶颈（模型、网络、解析）
在适用情况下实施流式处理
优化提示词长度
考虑模型大小的权衡
为重复查询添加缓存

最佳实践

将令牌与API调用计数分开跟踪
在优化之前实施评估
对延迟使用百分位数（p50、p95、p99）而非平均值
记录提示词和响应以便调试
设置成本预算和警报
对提示词进行版本控制并跟踪每个版本的性能

反模式

反模式	问题	正确方法
无令牌跟踪	意外成本	检测所有调用
无评估的优化	质量下降	优化前先测量
仅使用平均延迟	隐藏尾部延迟	使用百分位数
无提示词版本控制	无法关联变化	版本控制与跟踪
忽略缓存	重复成本	缓存稳定响应