name: eval-harness description: 用于Claude Code会话的正式评估框架,实施评估驱动开发(EDD)原则 tools: Read, Write, Edit, Bash, Grep, Glob
评估框架技能
用于Claude Code会话的正式评估框架,实施评估驱动开发(EDD)原则。
哲学理念
评估驱动开发将评估视为“AI开发的单元测试”:
- 在实施前定义预期行为
- 在开发过程中持续运行评估
- 跟踪每次变更的回归情况
- 使用pass@k指标衡量可靠性
评估类型
能力评估
测试Claude是否能完成之前无法完成的任务:
[能力评估:功能名称]
任务:描述Claude应完成的内容
成功标准:
- [ ] 标准1
- [ ] 标准2
- [ ] 标准3
预期输出:预期结果的描述
回归评估
确保变更不会破坏现有功能:
[回归评估:功能名称]
基线:SHA或检查点名称
测试:
- 现有测试1:通过/失败
- 现有测试2:通过/失败
- 现有测试3:通过/失败
结果:X/Y通过(先前Y/Y)
评分器类型
1. 基于代码的评分器
使用代码进行确定性检查:
# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "通过" || echo "失败"
# 检查测试是否通过
npm test -- --testPathPattern="auth" && echo "通过" || echo "失败"
# 检查构建是否成功
npm run build && echo "通过" || echo "失败"
2. 基于模型的评分器
使用Claude评估开放式输出:
[模型评分器提示]
评估以下代码变更:
1. 是否解决了所述问题?
2. 结构是否良好?
3. 是否处理了边缘情况?
4. 错误处理是否适当?
评分:1-5(1=差,5=优秀)
推理:[解释]
3. 人工评分器
标记需要人工审核:
[需要人工审核]
变更:变更描述
原因:需要人工审核的原因
风险级别:低/中/高
指标
pass@k
“k次尝试中至少一次成功”
- pass@1:首次尝试成功率
- pass@3:3次尝试内成功率
- 典型目标:pass@3 > 90%
pass^k
“所有k次试验都成功”
- 更高的可靠性标准
- pass^3:连续3次成功
- 用于关键路径
评估工作流程
1. 定义(编码前)
## 评估定义:功能-xyz
### 能力评估
1. 可以创建新用户账户
2. 可以验证邮箱格式
3. 可以安全地哈希密码
### 回归评估
1. 现有登录功能仍然有效
2. 会话管理未改变
3. 注销流程完整
### 成功指标
- 能力评估 pass@3 > 90%
- 回归评估 pass^3 = 100%
2. 实施
编写代码以通过定义的评估。
3. 评估
# 运行能力评估
[运行每个能力评估,记录通过/失败]
# 运行回归评估
npm test -- --testPathPattern="existing"
# 生成报告
4. 报告
评估报告:功能-xyz
========================
能力评估:
创建用户: 通过(pass@1)
验证邮箱: 通过(pass@2)
哈希密码: 通过(pass@1)
总计: 3/3通过
回归评估:
登录流程: 通过
会话管理: 通过
注销流程: 通过
总计: 3/3通过
指标:
pass@1:67%(2/3)
pass@3:100%(3/3)
状态:准备审核
集成模式
实施前
/eval define 功能名称
在.claude/evals/功能名称.md创建评估定义文件
实施期间
/eval check 功能名称
运行当前评估并报告状态
实施后
/eval report 功能名称
生成完整评估报告
评估存储
在项目中存储评估:
.claude/
evals/
功能-xyz.md # 评估定义
功能-xyz.log # 评估运行历史
baseline.json # 回归基线
最佳实践
- 编码前定义评估 - 强制清晰思考成功标准
- 频繁运行评估 - 及早发现回归
- 跟踪pass@k随时间变化 - 监控可靠性趋势
- 尽可能使用代码评分器 - 确定性 > 概率性
- 安全相关需人工审核 - 切勿完全自动化安全检查
- 保持评估快速 - 缓慢的评估不会被运行
- 评估与代码版本同步 - 评估是一等工件
示例:添加身份验证
## 评估:添加身份验证
### 阶段1:定义(10分钟)
能力评估:
- [ ] 用户可以使用邮箱/密码注册
- [ ] 用户可以使用有效凭据登录
- [ ] 无效凭据被拒绝并显示适当错误
- [ ] 会话在页面重新加载后保持
- [ ] 注销清除会话
回归评估:
- [ ] 公共路由仍然可访问
- [ ] API响应未改变
- [ ] 数据库架构兼容
### 阶段2:实施(可变)
[编写代码]
### 阶段3:评估
运行:/eval check 添加身份验证
### 阶段4:报告
评估报告:添加身份验证
==============================
能力:5/5通过(pass@3:100%)
回归:3/3通过(pass^3:100%)
状态:可以发布