名称：系统调试描述：在遇到任何错误、测试失败或意外行为时，在提出修复之前使用

系统调试

概述

随机修复浪费时间并创建新错误。快速补丁掩盖根本问题。

核心原则： 在尝试修复之前，总是先找到根本原因。症状修复是失败。

违反此过程的字面意义就是违反调试的精神。

铁律

没有根因调查，就没有修复尝试

如果你没有完成第一阶段，你就不能提出修复。

何时使用

用于任何技术问题：

测试失败
生产中的错误
意外行为
性能问题
构建失败
集成问题

尤其是在以下情况下使用：

时间压力下（紧急情况使猜测变得诱人）
"只是一个快速修复"似乎显而易见
你已经尝试了多个修复
之前的修复没有工作
你不完全理解问题

不要跳过当：

问题似乎简单（简单的错误也有根本原因）
你赶时间（匆忙保证返工）
经理想立刻修复（系统化比折腾更快）

四个阶段

你必须完成每个阶段才能进行到下一个。

第一阶段：根本原因调查

在尝试任何修复之前：

仔细阅读错误消息
- 不要跳过错误或警告
- 它们通常包含确切的解决方案
- 完整阅读堆栈跟踪
- 注意行号、文件路径、错误代码
一致地复现
- 你能可靠地触发它吗？
- 确切的步骤是什么？
- 每次都发生吗？
- 如果不可复现 → 收集更多数据，不要猜测
检查最近的变化
- 什么变化可能导致这个？
- Git diff，最近的提交
- 新的依赖项，配置变化
- 环境差异

在多组件系统中收集证据

当系统有多个组件时（CI → 构建 → 签名，API → 服务 → 数据库）：

在提出修复之前，添加诊断工具：

对于每个组件边界：
  - 记录什么数据进入组件
  - 记录什么数据退出组件
  - 验证环境/配置传播
  - 检查每个层的状态

运行一次以收集证据显示在哪里中断
然后分析证据以识别失败组件
然后调查那个特定组件

示例（多层系统）：

# 第一层：工作流
echo "=== 工作流中的秘密可用： ==="
echo "IDENTITY: ${IDENTITY:+SET}${IDENTITY:-UNSET}"

# 第二层：构建脚本
echo "=== 构建脚本中的环境变量： ==="
env | grep IDENTITY || echo "IDENTITY 不在环境中"

# 第三层：签名脚本
echo "=== 钥匙链状态： ==="
security list-keychains
security find-identity -v

# 第四层：实际签名
codesign --sign "$IDENTITY" --verbose=4 "$APP"

这揭示： 哪一层失败（秘密 → 工作流 ✓，工作流 → 构建 ✗）

跟踪数据流

当错误在调用栈深处时：

参见此目录中的 root-cause-tracing.md 获取完整的向后跟踪技术。

快速版本：
- 错误值从哪里起源？
- 什么用错误值调用了这个？
- 继续向上跟踪直到找到源头
- 在源头修复，而不是在症状

第二阶段：模式分析

在修复之前找到模式：

找到工作示例
- 在同一代码库中找到类似的工作代码
- 什么类似的东西工作而什么坏了？
与参考比较
- 如果实现模式，完整阅读参考实现
- 不要略过 - 阅读每一行
- 在应用之前完全理解模式
识别差异
- 工作和损坏的之间有什么不同？
- 列出每一个差异，无论多小
- 不要假设"那不可能重要"
理解依赖项
- 这个需要什么其他组件？
- 什么设置、配置、环境？
- 它做了什么假设？

第三阶段：假设和测试

科学方法：

形成单一假设
- 清楚地陈述：“我认为 X 是根本原因因为 Y”
- 写下来
- 具体，不模糊
最小化测试
- 做最小的可能改变来测试假设
- 一次一个变量
- 不要一次修复多个事情
在继续之前验证
- 它工作了吗？是 → 第四阶段
- 没有工作？形成新假设
- 不要添加更多修复在上面
当你不理解时
- 说"我不理解 X"
- 不要假装知道
- 寻求帮助
- 研究更多

第四阶段：实施

修复根本原因，而不是症状：

创建失败测试案例
- 最简单的可能复现
- 如果可能，自动化测试
- 如果没有框架，一次性测试脚本
- 在修复之前必须拥有
- 使用 superpowers:test-driven-development 技能编写适当的失败测试
实施单一修复
- 解决已识别的根本原因
- 一次一个改变
- 没有"既然我在这里"的改进
- 没有捆绑的重构
验证修复
- 测试现在通过了吗？
- 其他测试没有破坏？
- 问题实际上解决了吗？
如果修复不工作
- 停止
- 计数：你尝试了多少修复？
- 如果 < 3：返回第一阶段，用新信息重新分析
- 如果 ≥ 3：停止并质疑架构（见下面的步骤 5）
- 没有架构讨论，不要尝试第四次修复
如果 3+ 修复失败：质疑架构

指示架构问题的模式：
- 每个修复揭示新的共享状态/耦合/不同地方的问题
- 修复需要"大规模重构"来实现
- 每个修复在其他地方创建新症状
停止并质疑基础：
- 这个模式在根本上是否合理？
- 我们是否"仅凭惯性坚持"？
- 我们应该重构架构而不是继续修复症状？
在尝试更多修复之前与你的人类伙伴讨论

这不是一个失败的假设 - 这是一个错误的架构。

红旗 - 停止并遵循过程

如果你发现自己思考：

“现在快速修复，稍后调查”
“就试试改变 X 看看是否工作”
“添加多个改变，运行测试”
“跳过测试，我会手动验证”
“可能是 X，让我修复那个”
“我不完全理解但这可能工作”
“模式说 X 但我会不同地适应它”
“这里是主要问题：[没有调查就列出修复]”
在跟踪数据流之前提出解决方案
“再多一次修复尝试”（当已经尝试了 2+）
每个修复在不同地方揭示新问题

所有这些意味着：停止。返回第一阶段。

如果 3+ 修复失败：质疑架构（见第四阶段 5）

你的人类伙伴的信号你做得不对

注意这些重定向：

“那不是正在发生吗？” - 你假设而没有验证
“它会显示我们…吗？” - 你应该已经添加证据收集
“停止猜测” - 你在不理解的情况下提出修复
“超思考这个” - 质疑基础，而不只是症状
“我们卡住了？”（沮丧） - 你的方法不工作

当你看到这些：停止。返回第一阶段。

常见合理化

借口	现实
“问题简单，不需要过程”	简单问题也有根本原因。过程对于简单错误很快。
“紧急，没有时间进行过程”	系统调试比猜测和检查折腾更快。
“先试试这个，然后调查”	第一次修复设定了模式。从一开始就做正确。
“确认修复工作后再写测试”	未测试的修复不持久。先测试证明它。
“一次多个修复节省时间”	无法隔离什么工作。导致新错误。
“参考太长，我会适应模式”	部分理解保证错误。完全阅读它。
“我看到问题，让我修复它”	看到症状 ≠ 理解根本原因。
“再多一次修复尝试”（2+ 失败后）	3+ 失败 = 架构问题。质疑模式，不要再修复。

快速参考

阶段	关键活动	成功标准
1. 根本原因	阅读错误，复现，检查变化，收集证据	理解什么和为什么
2. 模式	找到工作示例，比较	识别差异
3. 假设	形成理论，最小化测试	确认或新假设
4. 实施	创建测试，修复，验证	错误解决，测试通过

当过程揭示"没有根本原因"时

如果系统调查揭示问题真正是环境性的、时间依赖的或外部的：

你已经完成了过程
记录你调查了什么
实施适当处理（重试、超时、错误消息）
为未来调查添加监控/日志记录

但： 95% 的"没有根本原因"案例是不完整的调查。

支持技术

这些技术是系统调试的一部分，在此目录中可用：

root-cause-tracing.md - 通过调用栈向后跟踪错误以找到原始触发
defense-in-depth.md - 在找到根本原因后在多层添加验证
condition-based-waiting.md - 用条件轮询替换任意超时

相关技能：

superpowers:test-driven-development - 用于创建失败测试案例（第四阶段，步骤 1）
superpowers:verification-before-completion - 在声称成功之前验证修复工作

现实世界影响

从调试会话：

系统方法：15-30 分钟修复
随机修复方法：2-3 小时折腾
首次修复率：95% vs 40%
引入新错误：接近零 vs 常见

名称：系统调试 描述：在遇到任何错误、测试失败或意外行为时，在提出修复之前使用