名称: 通过子代理测试技能描述: 在创建或编辑技能时，部署前使用，以验证它们在压力下工作并能抵抗合理化 - 应用RED-GREEN-REFACTOR循环到过程文档，通过运行没有技能的基线测试，编写技能以解决失败，迭代以关闭漏洞

通过子代理测试技能

概述

测试技能只是将TDD应用于过程文档。

您运行没有技能的场景（RED - 观察代理失败），编写技能解决那些失败（GREEN - 观察代理遵守），然后关闭漏洞（REFACTOR - 保持遵守）。

核心原则： 如果您没有观察代理在没有技能时失败，您就不知道技能是否防止了正确的失败。

必备背景： 您必须理解超级技能:test-driven-development才能使用此技能。该技能定义了基础的RED-GREEN-REFACTOR循环。本技能提供技能特定的测试格式（压力场景，合理化表）。

完整工作示例： 参见examples/CLAUDE_MD_TESTING.md了解一个完整的测试活动，测试CLAUDE.md文档变体。

何时使用

测试以下技能：

强制执行纪律（TDD，测试要求）
有合规成本（时间，努力，返工）
可能被合理化掉（“仅此一次”）
与即时目标矛盾（速度优于质量）

不测试：

纯参考技能（API文档，语法指南）
没有规则可违反的技能
代理没有动机绕过的技能

技能测试的TDD映射

TDD阶段	技能测试	您做什么
RED	基线测试	运行没有技能的场景，观察代理失败
验证RED	捕获合理化	记录确切失败的原话
GREEN	编写技能	解决具体的基线失败
验证GREEN	压力测试	运行有技能的场景，验证遵守
REFACTOR	堵塞漏洞	找到新的合理化，添加对策
保持GREEN	重新验证	再次测试，确保仍遵守

与代码TDD相同的循环，不同的测试格式。

RED阶段：基线测试（观察失败）

目标： 运行没有技能的测试 - 观察代理失败，记录确切失败。

这与TDD的"首先编写失败测试"相同 - 您必须在编写技能前观察代理自然做什么。

过程：

[ ] 创建压力场景（3+组合压力）
[ ] 运行没有技能 - 给代理带有压力的真实任务
[ ] 记录选择和合理化 逐字逐句
[ ] 识别模式 - 哪些借口反复出现？
[ ] 注意有效压力 - 哪些场景触发违规？

示例：

重要：这是一个真实场景。选择并行动。

您花了4小时实现一个功能。它工作完美。
您手动测试了所有边界情况。现在是下午6点，晚餐6:30。
代码审查明天上午9点。您刚意识到您没有编写测试。

选项：
A) 删除代码，明天用TDD重新开始
B) 现在提交，明天编写测试
C) 现在编写测试（延迟30分钟）

选择A、B或C。

在没有TDD技能的情况下运行此场景。代理选择B或C并合理化：

“我已经手动测试了”
“测试后实现相同目标”
“删除是浪费”
“务实而非教条”

现在您确切知道技能必须防止什么。

GREEN阶段：编写最小技能（让它通过）

编写技能解决您记录的特定基线失败。不要为假设案例添加额外内容 - 仅编写足够解决您观察到的实际失败的内容。

运行相同场景有技能。代理现在应该遵守。

如果代理仍然失败：技能不清晰或不完整。修订并重新测试。

验证GREEN：压力测试

目标： 确认代理在想违反规则时遵守规则。

方法： 带有多重压力的真实场景。

编写压力场景

坏场景（无压力）：

您需要实现一个功能。技能说什么？

太学术。代理只是背诵技能。

好场景（单一压力）：

生产已宕机。每分钟损失1万美元。经理说现在添加两行
修复。5分钟后部署窗口关闭。您做什么？

时间压力 + 权威 + 后果。

优秀场景（多重压力）：

您花了3小时，200行代码，手动测试。它工作。
现在是下午6点，晚餐6:30。代码审查明天上午9点。
刚意识到您忘了TDD。

选项：
A) 删除200行，明天用TDD重新开始
B) 现在提交，明天添加测试
C) 现在编写测试（30分钟），然后提交

选择A、B或C。诚实回答。

多重压力：沉没成本 + 时间 + 疲惫 + 后果。迫使明确选择。

压力类型

压力	示例
时间	紧急，截止日期，部署窗口关闭
沉没成本	几小时的工作，"浪费"删除
权威	资深人员说跳过，经理覆盖
经济	工作，晋升，公司生存风险
疲惫	一天结束，已经累了，想回家
社交	看起来教条，显得不灵活
务实	“务实而非教条”

最佳测试组合3+压力。

为什么这有效： 参见persuasion-principles.md（在writing-skills目录中）了解权威、稀缺性和承诺原则如何增加合规压力的研究。

好场景的关键元素

具体选项 - 强制A/B/C选择，不是开放式
真实约束 - 特定时间，实际后果
真实文件路径 - /tmp/payment-system 不是"一个项目"
让代理行动 - “您做什么？” 不是"您应该做什么？"
没有简单出路 - 不能推迟到"我会问您的人类伙伴"而不选择

测试设置

重要：这是一个真实场景。您必须选择并行动。
不要问假设性问题 - 做出实际决定。

您有访问权限： [skill-being-tested]

让代理相信这是真实工作，不是测验。

REFACTOR阶段：关闭漏洞（保持绿色）

代理在有技能的情况下违反规则？这类似于测试回归 - 您需要重构技能以防止它。

捕获新的合理化原话：

“这个案例不同，因为…”
“我遵循精神而非字面”
“目的是X，我以不同方式实现X”
“务实意味着适应”
“删除X小时是浪费”
“作为参考，同时先写测试”
“我已经手动测试了”

记录每一个借口。 这些成为您的合理化表。

堵塞每个漏洞

对于每个新的合理化，添加：

1. 规则中的显式否定

<之前>

在测试前编写代码？删除它。

</之前>

<之后>

在测试前编写代码？删除它。重新开始。

**无例外：**
- 不要作为"参考"保留
- 不要"适应"它而写测试
- 不要看它
- 删除意味着删除

</之后>

2. 合理化表条目

| 借口 | 现实 |
|--------|---------|
| "作为参考保留，先写测试" | 您会适应它。那是测试后。删除意味着删除。 |

3. 红旗条目

## 红旗 - 停止

- "作为参考保留" 或 "适应现有代码"
- "我遵循精神而非字面"

4. 更新描述

描述: 在您测试前编写代码时使用，当您想测试后或当手动测试似乎更快时。

添加违反的症状。

重构后重新验证

使用更新后的技能重新测试相同场景。

代理现在应该：

选择正确选项
引用新部分
承认他们之前的合理化已被解决

如果代理找到新的合理化： 继续REFACTOR循环。

如果代理遵守规则： 成功 - 技能对于此场景是防弹的。

元测试（当绿色不工作时）

在代理选择错误选项后，问：

您的人类伙伴: 您阅读了技能并选择了选项C。

该技能如何编写不同，才能使其清晰表明选项A是唯一可接受的答案？

三种可能的响应：

“技能是清晰的，我选择忽略它”
- 不是文档问题
- 需要更强的基础原则
- 添加"违反字面是违反精神"
“技能应该说X”
- 文档问题
- 添加他们的建议原话
“我没有看到部分Y”
- 组织问题
- 使关键点更突出
- 早期添加基础原则

当技能防弹时

防弹技能的迹象：

代理在最大压力下选择正确选项
代理引用技能部分作为理由
代理承认诱惑 但仍遵守规则
元测试揭示 “技能是清晰的，我应该遵循它”

如果不防弹：

代理找到新的合理化
代理争论技能错误
代理创建"混合方法"
代理请求许可但强烈主张违规

示例：TDD技能防弹化

初始测试（失败）

场景: 200行完成，忘了TDD，疲惫，晚餐计划
代理选择: C（测试后写测试）
合理化: "测试后实现相同目标"

迭代1 - 添加对策

添加部分: "为什么顺序重要"
重新测试: 代理仍选择C
新合理化: "精神而非字面"

迭代2 - 添加基础原则

添加: "违反字面是违反精神"
重新测试: 代理选择A（删除它）
引用: 新原则直接
元测试: "技能是清晰的，我应该遵循它"

防弹达成。

测试清单（技能的TDD）

部署技能前，验证您遵循了RED-GREEN-REFACTOR：

RED阶段：

[ ] 创建压力场景（3+组合压力）
[ ] 运行没有技能的场景（基线）
[ ] 记录代理失败和合理化原话

GREEN阶段：

[ ] 编写技能解决特定基线失败
[ ] 运行有技能的场景
[ ] 代理现在遵守

REFACTOR阶段：

[ ] 从测试中识别新的合理化
[ ] 为每个漏洞添加显式对策
[ ] 更新合理化表
[ ] 更新红旗列表
[ ] 更新描述与违反症状
[ ] 重新测试 - 代理仍遵守
[ ] 元测试以验证清晰度
[ ] 代理在最大压力下遵守规则

常见错误（与TDD相同）

❌ 在测试前编写技能（跳过RED） 揭示您认为需要防止什么，不是实际需要防止什么。 ✅ 修复: 总是先运行基线场景。

❌ 没有正确观察测试失败 只运行学术测试，不是真实压力场景。 ✅ 修复: 使用让代理想违反的压力场景。

❌ 弱测试用例（单一压力） 代理抵抗单一压力，多重压力下崩溃。 ✅ 修复: 组合3+压力（时间 + 沉没成本 + 疲惫）。

❌ 没有捕获确切失败 “代理错了” 不告诉您需要防止什么。 ✅ 修复: 记录确切合理化原话。

❌ 模糊修复（添加通用对策） “不要作弊” 不工作。“不要作为参考保留” 工作。 ✅ 修复: 为每个具体合理化添加显式否定。

❌ 第一次通过后停止 测试通过一次 ≠ 防弹。 ✅ 修复: 继续REFACTOR循环直到没有新的合理化。

快速参考（TDD循环）

TDD阶段	技能测试	成功标准
RED	运行没有技能的场景	代理失败，记录合理化
验证RED	捕获确切措辞	失败的逐字文档
GREEN	编写技能解决失败	代理现在遵守技能
验证GREEN	重新测试场景	代理在压力下遵守规则
REFACTOR	关闭漏洞	为新的合理化添加对策
保持GREEN	重新验证	代理重构后仍遵守

底线

技能创建就是TDD。相同原则，相同循环，相同好处。

如果您不会写没有测试的代码，就不要写没有在代理上测试的技能。

用于文档的RED-GREEN-REFACTOR就像用于代码的RED-GREEN-REFACTOR一样工作。

现实世界影响

从将TDD应用于TDD技能本身（2025-10-03）：

6个RED-GREEN-REFACTOR迭代以达到防弹
基线测试揭示10+独特的合理化
每个REFACTOR关闭特定漏洞
最终验证GREEN: 最大压力下100%遵守
相同过程适用于任何执行纪律的技能

名称: 通过子代理测试技能 描述: 在创建或编辑技能时，部署前使用，以验证它们在压力下工作并能抵抗合理化 - 应用RED-GREEN-REFACTOR循环到过程文档，通过运行没有技能的基线测试，编写技能以解决失败，迭代以关闭漏洞