评估工具集更新器Skill eval-harness-updater

该技能用于刷新和维护评估工具集,确保在不可靠环境下实时和回退模式的可靠性。它专注于处理提示和解析器漂移、超时处理、SLO门控和回归检查,通过最小化修补和验证输出来保持评估准确性和一致性。关键词:评估工具集,SLO门控,回归检查,解析器可靠性,AI评估,测试更新,DevOps工具。

AI应用 0 次安装 0 次浏览 更新于 3/10/2026

name: 评估工具集更新器 description: 刷新评估工具集,以在不可靠环境下保持实时和回退解析器的可靠性、SLO门控和回归检查。 version: 1.0.0 model: sonnet invoked_by: both user_invocable: true tools: [读, 写, 编辑, 通配符搜索, 全局搜索, Bash, 技能, 记忆记录, 网络搜索, 网络获取] args: ‘–harness <路径或名称> [–trigger 反思|进化|手动]’ error_handling: graceful streaming: supported verified: false lastVerifiedAt: 2026-02-19T05:29:09.098Z

评估工具集更新器

刷新评估工具集,以在不可靠环境下保持实时 + 回退模式的可操作性。

重点领域

  • 提示和解析器漂移
  • 超时/部分流处理
  • SLO 和回归门控
  • 双运行回退一致性

工作流程

  1. 解析工具集路径。
  2. 研究测试/评估最佳实践。
  3. 为解析和超时边缘情况添加 RED 回归。
  4. 修补最小工具集逻辑。
  5. 验证评估输出和 CI 门控。