name: eval-harness description: Claude Code会话的正式评估框架，实现评估驱动开发（EDD）原则 tools: Read, Write, Edit, Bash, Grep, Glob

Eval Harness技能

Claude Code会话的正式评估框架，实现评估驱动开发（EDD）的原则。

哲学

评估驱动开发将评估视为“AI开发的单元测试”：

在实现前定义预期行为
在开发过程中持续执行评估
跟踪每次变更的回归
使用pass@k指标进行可靠性测量

评估类型

能力评估

测试Claude是否获得了之前不具备的能力：

[能力评估: 功能名称]
任务: 描述Claude应完成的内容
成功标准:
  - [ ] 标准1
  - [ ] 标准2
  - [ ] 标准3
预期输出: 描述预期结果

回归评估

确保变更不会破坏现有功能：

[回归评估: 功能名称]
基线: SHA或检查点名称
测试:
  - 现有测试-1: 通过/失败
  - 现有测试-2: 通过/失败
  - 现有测试-3: 通过/失败
结果: X/Y通过（之前为Y/Y）

评估者类型

1. 代码库评估者

使用代码进行确定性检查：

# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "通过" || echo "失败"

# 检查测试是否成功
npm test -- --testPathPattern="auth" && echo "通过" || echo "失败"

# 检查构建是否成功
npm run build && echo "通过" || echo "失败"

2. 模型评估者

使用Claude评估自由格式输出：

[模型评分提示]
评估以下代码变更：
1. 是否解决了描述的问题？
2. 是否结构良好？
3. 是否处理了边界情况？
4. 错误处理是否适当？

评分: 1-5 (1=差, 5=优秀)
推理: [解释]

3. 人工评估者

标记需要手动审查的内容：

[需要人工审查]
变更: 描述变更内容
原因: 需要人工审查的原因
风险等级: 低/中/高

指标

pass@k

“在k次尝试中至少成功一次”

pass@1: 首次尝试成功率
pass@3: 三次内成功
通用目标: pass@3 > 90%

pass^k

“k次尝试全部成功”

更高的可靠性标准
pass^3: 连续三次成功
用于关键路径

评估工作流程

1. 定义（编码前）

## 评估定义: 功能-xyz

### 能力评估
1. 可以创建新用户账户
2. 可以验证邮箱格式
3. 可以安全哈希密码

### 回归评估
1. 现有登录功能继续工作
2. 会话管理未改变
3. 登出流程保持完整

### 成功指标
- 能力评估 pass@3 > 90%
- 回归评估 pass^3 = 100%

2. 实现

编写通过定义评估的代码。

3. 评估

# 执行能力评估
[执行每个能力评估，记录通过/失败]

# 执行回归评估
npm test -- --testPathPattern="existing"

# 生成报告

4. 报告

评估报告: 功能-xyz
========================

能力评估:
  创建用户:     通过 (pass@1)
  验证邮箱:     通过 (pass@2)
  哈希密码:     通过 (pass@1)
  总计:         3/3 通过

回归评估:
  登录流程:     通过
  会话管理:     通过
  登出流程:     通过
  总计:         3/3 通过

指标:
  pass@1: 67% (2/3)
  pass@3: 100% (3/3)

状态: 准备审查

集成模式

实现前

/eval define 功能名称

在.claude/evals/功能名称.md创建评估定义文件

实现中

/eval check 功能名称

运行当前评估并报告状态

实现后

/eval report 功能名称

生成完整评估报告

评估保存

在项目内保存评估：

.claude/
  evals/
    功能-xyz.md      # 评估定义
    功能-xyz.log     # 评估执行历史
    baseline.json    # 回归基线

最佳实践

编码前定义评估 - 强制明确思考成功标准
频繁执行评估 - 早期检测回归
随时间跟踪pass@k - 监控可靠性趋势
尽可能使用代码评估者 - 确定性 > 概率性
安全需要人工审查 - 不要完全自动化安全检查
保持评估快速 - 慢速评估不会被运行
与代码一起版本控制评估 - 评估是一等产出物

示例：添加认证

## 评估: 添加认证

### 阶段1: 定义 (10分钟)
能力评估:
- [ ] 用户可以通过邮箱/密码注册
- [ ] 用户可以使用有效凭据登录
- [ ] 无效凭据被适当错误拒绝
- [ ] 会话在页面重载后保持
- [ ] 登出清除会话

回归评估:
- [ ] 公共路由仍然可访问
- [ ] API响应未改变
- [ ] 数据库模式保持兼容

### 阶段2: 实现 (可变)
[编写代码]

### 阶段3: 评估
运行: /eval check 添加认证

### 阶段4: 报告
评估报告: 添加认证
==============================
能力: 5/5 通过 (pass@3: 100%)
回归: 3/3 通过 (pass^3: 100%)
状态: 可以发布