name: eval-harness description: 用于Claude Code会话的正式评估框架，实施评估驱动开发（EDD）原则 tools: Read, Write, Edit, Bash, Grep, Glob

评估框架技能

用于Claude Code会话的正式评估框架，实施评估驱动开发（EDD）原则。

哲学理念

评估驱动开发将评估视为“AI开发的单元测试”：

在实施前定义预期行为
在开发过程中持续运行评估
跟踪每次变更的回归情况
使用pass@k指标衡量可靠性

评估类型

能力评估

测试Claude是否能完成之前无法完成的任务：

[能力评估：功能名称]
任务：描述Claude应完成的内容
成功标准：
  - [ ] 标准1
  - [ ] 标准2
  - [ ] 标准3
预期输出：预期结果的描述

回归评估

确保变更不会破坏现有功能：

[回归评估：功能名称]
基线：SHA或检查点名称
测试：
  - 现有测试1：通过/失败
  - 现有测试2：通过/失败
  - 现有测试3：通过/失败
结果：X/Y通过（先前Y/Y）

评分器类型

1. 基于代码的评分器

使用代码进行确定性检查：

# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "通过" || echo "失败"

# 检查测试是否通过
npm test -- --testPathPattern="auth" && echo "通过" || echo "失败"

# 检查构建是否成功
npm run build && echo "通过" || echo "失败"

2. 基于模型的评分器

使用Claude评估开放式输出：

[模型评分器提示]
评估以下代码变更：
1. 是否解决了所述问题？
2. 结构是否良好？
3. 是否处理了边缘情况？
4. 错误处理是否适当？

评分：1-5（1=差，5=优秀）
推理：[解释]

3. 人工评分器

标记需要人工审核：

[需要人工审核]
变更：变更描述
原因：需要人工审核的原因
风险级别：低/中/高

指标

pass@k

“k次尝试中至少一次成功”

pass@1：首次尝试成功率
pass@3：3次尝试内成功率
典型目标：pass@3 > 90%

pass^k

“所有k次试验都成功”

更高的可靠性标准
pass^3：连续3次成功
用于关键路径

评估工作流程

1. 定义（编码前）

## 评估定义：功能-xyz

### 能力评估
1. 可以创建新用户账户
2. 可以验证邮箱格式
3. 可以安全地哈希密码

### 回归评估
1. 现有登录功能仍然有效
2. 会话管理未改变
3. 注销流程完整

### 成功指标
- 能力评估 pass@3 > 90%
- 回归评估 pass^3 = 100%

2. 实施

编写代码以通过定义的评估。

3. 评估

# 运行能力评估
[运行每个能力评估，记录通过/失败]

# 运行回归评估
npm test -- --testPathPattern="existing"

# 生成报告

4. 报告

评估报告：功能-xyz
========================

能力评估：
  创建用户：     通过（pass@1）
  验证邮箱：     通过（pass@2）
  哈希密码：     通过（pass@1）
  总计：         3/3通过

回归评估：
  登录流程：     通过
  会话管理：     通过
  注销流程：     通过
  总计：         3/3通过

指标：
  pass@1：67%（2/3）
  pass@3：100%（3/3）

状态：准备审核

集成模式

实施前

/eval define 功能名称

在.claude/evals/功能名称.md创建评估定义文件

实施期间

/eval check 功能名称

运行当前评估并报告状态

实施后

/eval report 功能名称

生成完整评估报告

评估存储

在项目中存储评估：

.claude/
  evals/
    功能-xyz.md      # 评估定义
    功能-xyz.log     # 评估运行历史
    baseline.json    # 回归基线

最佳实践

编码前定义评估 - 强制清晰思考成功标准
频繁运行评估 - 及早发现回归
跟踪pass@k随时间变化 - 监控可靠性趋势
尽可能使用代码评分器 - 确定性 > 概率性
安全相关需人工审核 - 切勿完全自动化安全检查
保持评估快速 - 缓慢的评估不会被运行
评估与代码版本同步 - 评估是一等工件

示例：添加身份验证

## 评估：添加身份验证

### 阶段1：定义（10分钟）
能力评估：
- [ ] 用户可以使用邮箱/密码注册
- [ ] 用户可以使用有效凭据登录
- [ ] 无效凭据被拒绝并显示适当错误
- [ ] 会话在页面重新加载后保持
- [ ] 注销清除会话

回归评估：
- [ ] 公共路由仍然可访问
- [ ] API响应未改变
- [ ] 数据库架构兼容

### 阶段2：实施（可变）
[编写代码]

### 阶段3：评估
运行：/eval check 添加身份验证

### 阶段4：报告
评估报告：添加身份验证
==============================
能力：5/5通过（pass@3：100%）
回归：3/3通过（pass^3：100%）
状态：可以发布