name: qa-agent-testing description: “用于代理系统的QA工具：场景套件、确定性/波动控制、工具沙盒、评分标准（包括LLM作为评判者），以及覆盖成功、安全、可靠性、延迟和成本的回归协议。”

QA代理测试（2026年1月）

设计和运行可靠的评估套件，用于LLM代理/人格，包括工具使用和多代理系统。

默认QA工作流

定义被测人格（PUT）：范围、范围外和安全边界。
定义10个代表性任务（必须通过）。
定义5个拒绝边缘情况（必须拒绝+重定向）。
定义输出合同（格式、语气、结构、引用）。
运行套件，使用确定性控制和工具追踪。
使用6维度评分标准评分；跟踪重运行间的方差。
记录基线和回归；基于阈值控制合并/部署。

使用assets/中的复制粘贴模板进行首次设置。

确定性和波动控制

控制输入：固定提示/配置、测试数据、稳定工具响应、尽可能冻结时间/时区。
控制采样：在支持的情况下使用固定种子/温度；记录模型/配置版本。
记录工具追踪：工具名称、参数、输出、延迟、错误、重试和副作用。

双层评估（2026）

单独评估推理层和行动层：

层	测试内容	关键指标
推理	规划、决策、意图	意图解析、任务粘附、上下文保留
行动	工具调用、执行、副作用	工具调用准确性、完成率、错误恢复

评估维度（评分重要事项）

维度	测量内容	级别
任务成功	正确结果和约束满足	代理
安全/政策	正确拒绝和安全替代	代理
可靠性	重运行和小提示变化间的稳定性	代理
延迟/成本	每任务和每套件的预算	业务
可调试性	失败产生证据（日志、追踪）	代理
事实基础	幻觉率、引用准确性	模型
偏见检测	跨人口统计输入的公平性	模型

CI经济学

PR门禁：小型、高信号的冒烟评估套件。
计划任务：完整场景套件、对抗性输入、成本/延迟回归检查（与质量评分分开跟踪）。

鲁棒性和安全测试（推荐）

变形测试：运行小规模、意义保留的提示/输入重写；强制输出不变性。
提示注入测试：将工具输出、检索文本和用户提供的文档视为不受信任；验证代理不遵循与系统/开发者约束冲突的嵌入指令。
工具故障注入：模拟超时、重试、部分数据和工具错误；验证优雅恢复。
差异测试：比较跨模型/配置版本的行为以检测回归和意外变化。

做 / 避免

做：

使用客观预言（模式验证、黄金追踪、确定性工具模拟）并辅以人工评审。
隔离波动性评估，指定所有者和过期时间，就像CI中的波动性测试一样。

避免：

仅评估"快乐提示"，无工具故障和无对抗性输入。
让自我评估替代真实检查。

快速参考

需求	使用	位置
构建10个任务	任务模式 + 示例	`references/test-case-design.md`
设计拒绝	拒绝类别 + 模板	`references/refusal-patterns.md`
评分运行	详细评分标准 + 阈值	`references/scoring-rubric.md`
快速计算套件数学	CLI实用脚本	`scripts/score_suite.py`
管理回归	重运行工作流 + 基线策略	`references/regression-protocol.md`
沙盒工具	隔离层 + 加固	`references/tool-sandboxing.md`
测试多代理系统	协调模式 + 套件模板	`references/multi-agent-testing.md`
安全使用LLM作为评判者	偏见 + 缓解措施	`references/llm-judge-limitations.md`
从模板开始	工具 + 评分表 + 日志	`assets/`

决策树

测试代理？
  - 新代理？
    - 创建QA工具 -> 定义10任务 + 5拒绝 -> 运行基线
  - 提示更改？
    - 重新运行完整15检查套件 -> 比较基线
  - 工具/知识更改？
    - 重新运行受影响的测试 -> 记录在回归日志中
  - 质量评审？
    - 使用评分标准评分 -> 识别薄弱区域 -> 修复提示

评分和门禁

使用6维度评分标准为每次运行评分（每维度0-3；每任务最高18分）。
偏好套件级门禁，考虑方差；避免将非确定性视为免费通行证。
使用scripts/score_suite.py计算平均值、归一化分数和基本通过/条件/失败分类。
对于详细方法（包括评判者校准和方差指标），见references/scoring-rubric.md。

references/test-case-design.md - 10任务模式 + 验证 + 变形附加
references/refusal-patterns.md - 拒绝类别 + 响应模板 + 测试策略
references/scoring-rubric.md - 评分指南、阈值、方差指标、评判者校准
references/regression-protocol.md - 重运行范围、基线策略、恢复程序
references/tool-sandboxing.md - 沙盒层、工具加固、注入/渗出测试想法
references/multi-agent-testing.md - 协调测试模式 + 套件模板
references/llm-judge-limitations.md - LLM作为评判者的偏见、限制、缓解措施

模板

assets/qa-harness-template.md - 复制粘贴工具
assets/scoring-sheet.md - 评分跟踪器
assets/regression-log.md - 版本跟踪

外部资源

见data/sources.json获取：

LLM评估研究
红队方法
提示测试框架

快速开始

复制assets/qa-harness-template.md
填写PUT（被测人格）部分
为您的代理定义10个代表性任务
添加5个拒绝边缘情况
指定输出合同
运行基线测试
在回归日志中记录结果

成功标准： 10个任务每个得分 >= 12/18，每个拒绝得分 >= 2/3（或通过您的政策预言），结果在重运行间稳定且无新的硬性失败。

AI代理测试技能Skill qa-agent-testing

name: qa-agent-testing description: “用于代理系统的QA工具：场景套件、确定性/波动控制、工具沙盒、评分标准（包括LLM作为评判者），以及覆盖成功、安全、可靠性、延迟和成本的回归协议。”

QA代理测试（2026年1月）

默认QA工作流

确定性和波动控制

双层评估（2026）

评估维度（评分重要事项）

CI经济学

鲁棒性和安全测试（推荐）

做 / 避免

快速参考

决策树

评分和门禁

导航

资源

模板

外部资源

相关技能

快速开始