name: qa-agent-testing description: “用于代理系统的QA工具:场景套件、确定性/波动控制、工具沙盒、评分标准(包括LLM作为评判者),以及覆盖成功、安全、可靠性、延迟和成本的回归协议。”
QA代理测试(2026年1月)
设计和运行可靠的评估套件,用于LLM代理/人格,包括工具使用和多代理系统。
默认QA工作流
- 定义被测人格(PUT):范围、范围外和安全边界。
- 定义10个代表性任务(必须通过)。
- 定义5个拒绝边缘情况(必须拒绝+重定向)。
- 定义输出合同(格式、语气、结构、引用)。
- 运行套件,使用确定性控制和工具追踪。
- 使用6维度评分标准评分;跟踪重运行间的方差。
- 记录基线和回归;基于阈值控制合并/部署。
使用assets/中的复制粘贴模板进行首次设置。
确定性和波动控制
- 控制输入:固定提示/配置、测试数据、稳定工具响应、尽可能冻结时间/时区。
- 控制采样:在支持的情况下使用固定种子/温度;记录模型/配置版本。
- 记录工具追踪:工具名称、参数、输出、延迟、错误、重试和副作用。
双层评估(2026)
单独评估推理层和行动层:
| 层 | 测试内容 | 关键指标 |
|---|---|---|
| 推理 | 规划、决策、意图 | 意图解析、任务粘附、上下文保留 |
| 行动 | 工具调用、执行、副作用 | 工具调用准确性、完成率、错误恢复 |
评估维度(评分重要事项)
| 维度 | 测量内容 | 级别 |
|---|---|---|
| 任务成功 | 正确结果和约束满足 | 代理 |
| 安全/政策 | 正确拒绝和安全替代 | 代理 |
| 可靠性 | 重运行和小提示变化间的稳定性 | 代理 |
| 延迟/成本 | 每任务和每套件的预算 | 业务 |
| 可调试性 | 失败产生证据(日志、追踪) | 代理 |
| 事实基础 | 幻觉率、引用准确性 | 模型 |
| 偏见检测 | 跨人口统计输入的公平性 | 模型 |
CI经济学
- PR门禁:小型、高信号的冒烟评估套件。
- 计划任务:完整场景套件、对抗性输入、成本/延迟回归检查(与质量评分分开跟踪)。
鲁棒性和安全测试(推荐)
- 变形测试:运行小规模、意义保留的提示/输入重写;强制输出不变性。
- 提示注入测试:将工具输出、检索文本和用户提供的文档视为不受信任;验证代理不遵循与系统/开发者约束冲突的嵌入指令。
- 工具故障注入:模拟超时、重试、部分数据和工具错误;验证优雅恢复。
- 差异测试:比较跨模型/配置版本的行为以检测回归和意外变化。
做 / 避免
做:
- 使用客观预言(模式验证、黄金追踪、确定性工具模拟)并辅以人工评审。
- 隔离波动性评估,指定所有者和过期时间,就像CI中的波动性测试一样。
避免:
- 仅评估"快乐提示",无工具故障和无对抗性输入。
- 让自我评估替代真实检查。
快速参考
| 需求 | 使用 | 位置 |
|---|---|---|
| 构建10个任务 | 任务模式 + 示例 | references/test-case-design.md |
| 设计拒绝 | 拒绝类别 + 模板 | references/refusal-patterns.md |
| 评分运行 | 详细评分标准 + 阈值 | references/scoring-rubric.md |
| 快速计算套件数学 | CLI实用脚本 | scripts/score_suite.py |
| 管理回归 | 重运行工作流 + 基线策略 | references/regression-protocol.md |
| 沙盒工具 | 隔离层 + 加固 | references/tool-sandboxing.md |
| 测试多代理系统 | 协调模式 + 套件模板 | references/multi-agent-testing.md |
| 安全使用LLM作为评判者 | 偏见 + 缓解措施 | references/llm-judge-limitations.md |
| 从模板开始 | 工具 + 评分表 + 日志 | assets/ |
决策树
测试代理?
- 新代理?
- 创建QA工具 -> 定义10任务 + 5拒绝 -> 运行基线
- 提示更改?
- 重新运行完整15检查套件 -> 比较基线
- 工具/知识更改?
- 重新运行受影响的测试 -> 记录在回归日志中
- 质量评审?
- 使用评分标准评分 -> 识别薄弱区域 -> 修复提示
评分和门禁
- 使用6维度评分标准为每次运行评分(每维度0-3;每任务最高18分)。
- 偏好套件级门禁,考虑方差;避免将非确定性视为免费通行证。
- 使用
scripts/score_suite.py计算平均值、归一化分数和基本通过/条件/失败分类。 - 对于详细方法(包括评判者校准和方差指标),见
references/scoring-rubric.md。
导航
资源
references/test-case-design.md- 10任务模式 + 验证 + 变形附加references/refusal-patterns.md- 拒绝类别 + 响应模板 + 测试策略references/scoring-rubric.md- 评分指南、阈值、方差指标、评判者校准references/regression-protocol.md- 重运行范围、基线策略、恢复程序references/tool-sandboxing.md- 沙盒层、工具加固、注入/渗出测试想法references/multi-agent-testing.md- 协调测试模式 + 套件模板references/llm-judge-limitations.md- LLM作为评判者的偏见、限制、缓解措施
模板
assets/qa-harness-template.md- 复制粘贴工具assets/scoring-sheet.md- 评分跟踪器assets/regression-log.md- 版本跟踪
外部资源
- LLM评估研究
- 红队方法
- 提示测试框架
相关技能
- qa-testing-strategy: …/qa-testing-strategy/SKILL.md - 通用测试策略
- ai-prompt-engineering: …/ai-prompt-engineering/SKILL.md - 提示设计模式
快速开始
- 复制assets/qa-harness-template.md
- 填写PUT(被测人格)部分
- 为您的代理定义10个代表性任务
- 添加5个拒绝边缘情况
- 指定输出合同
- 运行基线测试
- 在回归日志中记录结果
成功标准: 10个任务每个得分 >= 12/18,每个拒绝得分 >= 2/3(或通过您的政策预言),结果在重运行间稳定且无新的硬性失败。