评估驱动开发框架 eval-harness

这是一个用于AI代码开发的评估框架,通过定义和执行评估(evals)来实施驱动开发,确保代码质量和功能可靠性。关键词:评估框架、驱动开发、AI开发、单元测试、代码测试、Claude Code、eval驱动开发、软件测试、自动化评估。

测试 0 次安装 0 次浏览 更新于 3/7/2026

name: eval-harness description: 用于Claude Code会话的正式评估框架,实现eval驱动开发(EDD)原则 tools: Read, Write, Edit, Bash, Grep, Glob

Eval Harness 技能

Claude Code 工作阶段的正式评估框架,实现 eval 驱动开发(EDD)原则。

理念

Eval 驱动开发将 evals 视为「AI 开发的单元测试」:

  • 在实施前定义预期行为
  • 开发期间持续执行 evals
  • 每次变更追踪回归
  • 使用 pass@k 指标进行可靠性测量

Eval 类型

能力 Evals

测试 Claude 是否能做到以前做不到的事:

[CAPABILITY EVAL: feature-name]
任务:Claude 应完成什么的描述
成功标准:
  - [ ] 标准 1
  - [ ] 标准 2
  - [ ] 标准 3
预期输出:预期结果描述

回归 Evals

确保变更不会破坏现有功能:

[REGRESSION EVAL: feature-name]
基准:SHA 或检查点名称
测试:
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
结果:X/Y 通过(先前为 Y/Y)

评分器类型

1. 基于代码的评分器

使用代码的确定性检查:

# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# 检查测试是否通过
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"

2. 基于模型的评分器

使用 Claude 评估开放式输出:

[MODEL GRADER PROMPT]
评估以下代码变更:
1. 它是否解决了陈述的问题?
2. 结构是否良好?
3. 边界案例是否被处理?
4. 错误处理是否适当?

分数:1-5(1=差,5=优秀)
理由:[解释]

3. 人工评分器

标记为手动审查:

[HUMAN REVIEW REQUIRED]
变更:变更内容的描述
理由:为何需要人工审查
风险等级:LOW/MEDIUM/HIGH

指标

pass@k

「k 次尝试中至少一次成功」

  • pass@1:第一次尝试成功率
  • pass@3:3 次尝试内成功
  • 典型目标:pass@3 > 90%

pass^k

「所有 k 次试验都成功」

  • 更高的可靠性标准
  • pass^3:连续 3 次成功
  • 用于关键路径

Eval 工作流程

1. 定义(编码前)

## EVAL 定义:feature-xyz

### 能力 Evals
1. 可以建立新用户账户
2. 可以验证电子邮件格式
3. 可以安全地哈希密码

### 回归 Evals
1. 现有登录仍可运作
2. 会话管理未变更
3. 登出流程完整

### 成功指标
- 能力 evals 的 pass@3 > 90%
- 回归 evals 的 pass^3 = 100%

2. 实施

撰写代码以通过定义的 evals。

3. 评估

# 执行能力 evals
[执行每个能力 eval,记录 PASS/FAIL]

# 执行回归 evals
npm test -- --testPathPattern="existing"

# 产生报告

4. 报告

EVAL 报告:feature-xyz
========================

能力 Evals:
  create-user:     PASS (pass@1)
  validate-email:  PASS (pass@2)
  hash-password:   PASS (pass@1)
  整体:           3/3 通过

回归 Evals:
  login-flow:      PASS
  session-mgmt:    PASS
  logout-flow:     PASS
  整体:           3/3 通过

指标:
  pass@1: 67% (2/3)
  pass@3: 100% (3/3)

状态:准备审查

整合模式

实施前

/eval define feature-name

.claude/evals/feature-name.md 建立 eval 定义文件

实施期间

/eval check feature-name

执行当前 evals 并报告状态

实施后

/eval report feature-name

产生完整 eval 报告

Eval 存储

在项目中存储 evals:

.claude/
  evals/
    feature-xyz.md      # Eval 定义
    feature-xyz.log     # Eval 执行历史
    baseline.json       # 回归基准

最佳实践

  1. 编码前定义 evals - 强制清楚思考成功标准
  2. 频繁执行 evals - 及早捕捉回归
  3. 随时间追踪 pass@k - 监控可靠性趋势
  4. 可能时使用代码评分器 - 确定性 > 概率性
  5. 安全性需人工审查 - 永远不要完全自动化安全检查
  6. 保持 evals 快速 - 慢 evals 不会被执行
  7. 与代码一起版本化 evals - Evals 是一等工作

示例:新增认证

## EVAL:add-authentication

### 阶段 1:定义(10 分钟)
能力 Evals:
- [ ] 用户可以用电子邮件/密码注册
- [ ] 用户可以用有效凭据登录
- [ ] 无效凭据被拒绝并显示适当错误
- [ ] 会话在页面重新加载后持续
- [ ] 登出清除会话

回归 Evals:
- [ ] 公开路由仍可访问
- [ ] API 响应未变更
- [ ] 数据库 schema 兼容

### 阶段 2:实施(视情况而定)
[撰写代码]

### 阶段 3:评估
执行:/eval check add-authentication

### 阶段 4:报告
EVAL 报告:add-authentication
==============================
能力:5/5 通过(pass@3:100%)
回归:3/3 通过(pass^3:100%)
状态:准备发布