AI代理测试技能 qa-agent-testing

这个技能专注于为LLM代理设计测试框架,包括工具使用、多代理系统评估,以及覆盖成功、安全、可靠性、延迟和成本的全面测试方法。关键词:LLM代理测试、工具沙盒、评分标准、回归测试、AI智能体评估。

AI智能体 0 次安装 0 次浏览 更新于 3/7/2026

name: qa-agent-testing description: “用于代理系统的QA工具:场景套件、确定性/波动控制、工具沙盒、评分标准(包括LLM作为评判者),以及覆盖成功、安全、可靠性、延迟和成本的回归协议。”

QA代理测试(2026年1月)

设计和运行可靠的评估套件,用于LLM代理/人格,包括工具使用和多代理系统。

默认QA工作流

  1. 定义被测人格(PUT):范围、范围外和安全边界。
  2. 定义10个代表性任务(必须通过)。
  3. 定义5个拒绝边缘情况(必须拒绝+重定向)。
  4. 定义输出合同(格式、语气、结构、引用)。
  5. 运行套件,使用确定性控制和工具追踪。
  6. 使用6维度评分标准评分;跟踪重运行间的方差。
  7. 记录基线和回归;基于阈值控制合并/部署。

使用assets/中的复制粘贴模板进行首次设置。

确定性和波动控制

  • 控制输入:固定提示/配置、测试数据、稳定工具响应、尽可能冻结时间/时区。
  • 控制采样:在支持的情况下使用固定种子/温度;记录模型/配置版本。
  • 记录工具追踪:工具名称、参数、输出、延迟、错误、重试和副作用。

双层评估(2026)

单独评估推理层和行动层:

测试内容 关键指标
推理 规划、决策、意图 意图解析、任务粘附、上下文保留
行动 工具调用、执行、副作用 工具调用准确性、完成率、错误恢复

评估维度(评分重要事项)

维度 测量内容 级别
任务成功 正确结果和约束满足 代理
安全/政策 正确拒绝和安全替代 代理
可靠性 重运行和小提示变化间的稳定性 代理
延迟/成本 每任务和每套件的预算 业务
可调试性 失败产生证据(日志、追踪) 代理
事实基础 幻觉率、引用准确性 模型
偏见检测 跨人口统计输入的公平性 模型

CI经济学

  • PR门禁:小型、高信号的冒烟评估套件。
  • 计划任务:完整场景套件、对抗性输入、成本/延迟回归检查(与质量评分分开跟踪)。

鲁棒性和安全测试(推荐)

  • 变形测试:运行小规模、意义保留的提示/输入重写;强制输出不变性。
  • 提示注入测试:将工具输出、检索文本和用户提供的文档视为不受信任;验证代理不遵循与系统/开发者约束冲突的嵌入指令。
  • 工具故障注入:模拟超时、重试、部分数据和工具错误;验证优雅恢复。
  • 差异测试:比较跨模型/配置版本的行为以检测回归和意外变化。

做 / 避免

做:

  • 使用客观预言(模式验证、黄金追踪、确定性工具模拟)并辅以人工评审。
  • 隔离波动性评估,指定所有者和过期时间,就像CI中的波动性测试一样。

避免:

  • 仅评估"快乐提示",无工具故障和无对抗性输入。
  • 让自我评估替代真实检查。

快速参考

需求 使用 位置
构建10个任务 任务模式 + 示例 references/test-case-design.md
设计拒绝 拒绝类别 + 模板 references/refusal-patterns.md
评分运行 详细评分标准 + 阈值 references/scoring-rubric.md
快速计算套件数学 CLI实用脚本 scripts/score_suite.py
管理回归 重运行工作流 + 基线策略 references/regression-protocol.md
沙盒工具 隔离层 + 加固 references/tool-sandboxing.md
测试多代理系统 协调模式 + 套件模板 references/multi-agent-testing.md
安全使用LLM作为评判者 偏见 + 缓解措施 references/llm-judge-limitations.md
从模板开始 工具 + 评分表 + 日志 assets/

决策树

测试代理?
  - 新代理?
    - 创建QA工具 -> 定义10任务 + 5拒绝 -> 运行基线
  - 提示更改?
    - 重新运行完整15检查套件 -> 比较基线
  - 工具/知识更改?
    - 重新运行受影响的测试 -> 记录在回归日志中
  - 质量评审?
    - 使用评分标准评分 -> 识别薄弱区域 -> 修复提示

评分和门禁

  • 使用6维度评分标准为每次运行评分(每维度0-3;每任务最高18分)。
  • 偏好套件级门禁,考虑方差;避免将非确定性视为免费通行证。
  • 使用scripts/score_suite.py计算平均值、归一化分数和基本通过/条件/失败分类。
  • 对于详细方法(包括评判者校准和方差指标),见references/scoring-rubric.md

导航

资源

  • references/test-case-design.md - 10任务模式 + 验证 + 变形附加
  • references/refusal-patterns.md - 拒绝类别 + 响应模板 + 测试策略
  • references/scoring-rubric.md - 评分指南、阈值、方差指标、评判者校准
  • references/regression-protocol.md - 重运行范围、基线策略、恢复程序
  • references/tool-sandboxing.md - 沙盒层、工具加固、注入/渗出测试想法
  • references/multi-agent-testing.md - 协调测试模式 + 套件模板
  • references/llm-judge-limitations.md - LLM作为评判者的偏见、限制、缓解措施

模板

  • assets/qa-harness-template.md - 复制粘贴工具
  • assets/scoring-sheet.md - 评分跟踪器
  • assets/regression-log.md - 版本跟踪

外部资源

data/sources.json获取:

  • LLM评估研究
  • 红队方法
  • 提示测试框架

相关技能

快速开始

  1. 复制assets/qa-harness-template.md
  2. 填写PUT(被测人格)部分
  3. 为您的代理定义10个代表性任务
  4. 添加5个拒绝边缘情况
  5. 指定输出合同
  6. 运行基线测试
  7. 在回归日志中记录结果

成功标准: 10个任务每个得分 >= 12/18,每个拒绝得分 >= 2/3(或通过您的政策预言),结果在重运行间稳定且无新的硬性失败。