名称: 自主kpi追踪 描述: 追踪和测量自主编码关键绩效指标以评估ZTE进展。用于测量工作流有效性、追踪尺寸/尝试/连续成功/存在指标,或评估自主操作准备情况。 允许工具: 读取、Grep、Glob
自主KPI追踪技能
指导测量和追踪自主编码关键绩效指标以评估ZTE准备情况。
何时使用
- 测量自主工作流有效性
- 追踪向ZTE进展
- 分析成功模式
- 识别改进领域
核心KPIs
汇总指标
| 指标 | 计算方式 | 目标 |
|---|---|---|
| 当前连续成功 | 连续成功次数(尝试数 <= 2) | 越高越好 |
| 最长连续成功 | 最佳连续成功运行次数 | 追踪改进 |
| 平均存在 | 所有运行的平均尝试数 | 目标: 1 |
| 总计划尺寸 | 所有计划尺寸的总和 | 追踪扩展 |
| 总差异尺寸 | 所有更改的总和(添加 + 删除) | 追踪吞吐量 |
每次运行指标
| 指标 | 来源 | 含义 |
|---|---|---|
| 尝试次数 | 计划/补丁运行次数 | 1 = 完美,更高 = 重试 |
| 计划尺寸 | 计划文件中的行数 | 任务复杂性 |
| 差异尺寸 | 添加行数 + 删除行数 | 更改幅度 |
| 更改文件数 | 修改的文件数量 | 更改范围 |
计算方法
尝试次数计数
只计数工作流重启:
attempts_incrementing = ["adw_plan_iso", "adw_patch_iso"]
attempts = count(workflow in all_adws if workflow in attempts_incrementing)
构建/测试/评审不递增 - 只计算完全重新计划。
连续成功计算
current_streak = 0
for run in reversed(runs):
if run.attempts <= 2:
current_streak += 1
else:
break
差异统计
git diff origin/main --shortstat
# 输出: X 个文件更改, Y 个插入(+), Z 个删除(-)
KPI 文件格式
存储在 app_docs/agentic_kpis.md 或等效位置:
# 自主KPIs
## 摘要
| 指标 | 值 |
| --- | --- |
| 当前连续成功 | 5 |
| 最长连续成功 | 12 |
| 平均存在 | 1.3 |
| 总计划尺寸 | 450 行 |
| 总差异尺寸 | 2,340 行 |
## 详细信息
| 日期 | ADW ID | 问题 | 类别 | 尝试次数 | 计划尺寸 | 差异 +/- | 文件 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| 2024-01-15 | abc123 | #45 | /bug | 1 | 35 | +45/-12 | 3 |
| 2024-01-14 | def456 | #44 | /feature | 2 | 85 | +120/-30 | 8 |
追踪工作流
步骤 1: 收集当前运行数据
从状态或 git:
- ADW ID
- 问题编号
- 问题分类
- 计划文件路径
- 所有运行的工作流(用于尝试次数)
步骤 2: 计算指标
attempts = count_attempts(all_adws)
plan_size = wc_lines(plan_file)
diff_stats = parse_git_diff()
步骤 3: 更新详细表
添加新行,包含当前运行数据。
步骤 4: 重新计算摘要
基于完整详细表更新所有汇总指标。
步骤 5: 分析趋势
- 连续成功是否增加?
- 平均存在是否减少?
- 计划尺寸是否增长(处理更大任务)?
ZTE 准备情况指标
基于KPIs,评估ZTE准备情况:
| 指标 | 阈值 | 状态 |
|---|---|---|
| 当前连续成功 | >= 5 | 准备好尝试ZTE |
| 平均存在 | <= 1.5 | 高效率 |
| 近期失败 | 最近10次中0 | 高置信度 |
| 计划尺寸趋势 | 增加 | 扩展中 |
关键记忆参考
- @agentic-kpis.md - 来自课程002的KPI定义
- @zte-progression.md - KPIs如何与ZTE级别相关
- @zte-confidence-building.md - 使用KPIs建立信心
输出格式
提供KPI更新:
## KPI 更新
**运行:** {adw_id}
**问题:** #{issue_number} ({issue_class})
### 本次运行
- 尝试次数: 1
- 计划尺寸: 45 行
- 差异: +67/-23 (4 个文件)
### 更新摘要
- 当前连续成功: 6 (之前 5)
- 最长连续成功: 12 (未变)
- 平均存在: 1.28 (改进)
### 分析
[趋势观察和建议]
反模式
- 操控指标(仅处理简单任务)
- 忽略失败(不计入重试)
- 不一致追踪
- 庆祝连续成功而非实际交付
版本历史
- v1.0.0 (2025-12-26): 初始发布
最后更新
日期: 2025-12-26 模型: claude-opus-4-5-20251101