name: eval-harness description: 用于Claude Code会话的正式评估框架，实现eval驱动开发（EDD）原则 tools: Read, Write, Edit, Bash, Grep, Glob

Eval Harness 技能

Claude Code 工作阶段的正式评估框架，实现 eval 驱动开发（EDD）原则。

理念

Eval 驱动开发将 evals 视为「AI 开发的单元测试」：

在实施前定义预期行为
开发期间持续执行 evals
每次变更追踪回归
使用 pass@k 指标进行可靠性测量

Eval 类型

能力 Evals

测试 Claude 是否能做到以前做不到的事：

[CAPABILITY EVAL: feature-name]
任务：Claude 应完成什么的描述
成功标准：
  - [ ] 标准 1
  - [ ] 标准 2
  - [ ] 标准 3
预期输出：预期结果描述

回归 Evals

确保变更不会破坏现有功能：

[REGRESSION EVAL: feature-name]
基准：SHA 或检查点名称
测试：
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
结果：X/Y 通过（先前为 Y/Y）

评分器类型

1. 基于代码的评分器

使用代码的确定性检查：

# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# 检查测试是否通过
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"

2. 基于模型的评分器

使用 Claude 评估开放式输出：

[MODEL GRADER PROMPT]
评估以下代码变更：
1. 它是否解决了陈述的问题？
2. 结构是否良好？
3. 边界案例是否被处理？
4. 错误处理是否适当？

分数：1-5（1=差，5=优秀）
理由：[解释]

3. 人工评分器

标记为手动审查：

[HUMAN REVIEW REQUIRED]
变更：变更内容的描述
理由：为何需要人工审查
风险等级：LOW/MEDIUM/HIGH

指标

pass@k

「k 次尝试中至少一次成功」

pass@1：第一次尝试成功率
pass@3：3 次尝试内成功
典型目标：pass@3 > 90%

pass^k

「所有 k 次试验都成功」

更高的可靠性标准
pass^3：连续 3 次成功
用于关键路径

Eval 工作流程

1. 定义（编码前）

## EVAL 定义：feature-xyz

### 能力 Evals
1. 可以建立新用户账户
2. 可以验证电子邮件格式
3. 可以安全地哈希密码

### 回归 Evals
1. 现有登录仍可运作
2. 会话管理未变更
3. 登出流程完整

### 成功指标
- 能力 evals 的 pass@3 > 90%
- 回归 evals 的 pass^3 = 100%

2. 实施

撰写代码以通过定义的 evals。

3. 评估

# 执行能力 evals
[执行每个能力 eval，记录 PASS/FAIL]

# 执行回归 evals
npm test -- --testPathPattern="existing"

# 产生报告

4. 报告

EVAL 报告：feature-xyz
========================

能力 Evals：
  create-user:     PASS (pass@1)
  validate-email:  PASS (pass@2)
  hash-password:   PASS (pass@1)
  整体：           3/3 通过

回归 Evals：
  login-flow:      PASS
  session-mgmt:    PASS
  logout-flow:     PASS
  整体：           3/3 通过

指标：
  pass@1: 67% (2/3)
  pass@3: 100% (3/3)

状态：准备审查

整合模式

实施前

/eval define feature-name

在 .claude/evals/feature-name.md 建立 eval 定义文件

实施期间

/eval check feature-name

执行当前 evals 并报告状态

实施后

/eval report feature-name

产生完整 eval 报告

Eval 存储

在项目中存储 evals：

.claude/
  evals/
    feature-xyz.md      # Eval 定义
    feature-xyz.log     # Eval 执行历史
    baseline.json       # 回归基准

最佳实践

编码前定义 evals - 强制清楚思考成功标准
频繁执行 evals - 及早捕捉回归
随时间追踪 pass@k - 监控可靠性趋势
可能时使用代码评分器 - 确定性 > 概率性
安全性需人工审查 - 永远不要完全自动化安全检查
保持 evals 快速 - 慢 evals 不会被执行
与代码一起版本化 evals - Evals 是一等工作

示例：新增认证

## EVAL：add-authentication

### 阶段 1：定义（10 分钟）
能力 Evals：
- [ ] 用户可以用电子邮件/密码注册
- [ ] 用户可以用有效凭据登录
- [ ] 无效凭据被拒绝并显示适当错误
- [ ] 会话在页面重新加载后持续
- [ ] 登出清除会话

回归 Evals：
- [ ] 公开路由仍可访问
- [ ] API 响应未变更
- [ ] 数据库 schema 兼容

### 阶段 2：实施（视情况而定）
[撰写代码]

### 阶段 3：评估
执行：/eval check add-authentication

### 阶段 4：报告
EVAL 报告：add-authentication
==============================
能力：5/5 通过（pass@3：100%）
回归：3/3 通过（pass^3：100%）
状态：准备发布