name: 系统化调试 description: 一个四阶段调试框架，确保在尝试修复前进行根因调查。永远不要跳到解决方案。在任何遇到bug、测试失败或意外行为时使用，在提出修复之前。 version: 2.1.0

系统化调试

概述

随机修复浪费时间和创建新bug。快速补丁掩盖了潜在问题。

核心原则： 在尝试修复前，永远要找到根本原因。症状修复是失败的。

违反此过程的字面就是违反调试的精神。

铁律

没有先进行根因调查，就不进行修复

如果你没有完成阶段1，你不能提出修复。

何时使用

适用于任何技术问题：

测试失败
生产中的bug
意外行为
性能问题
构建失败
集成问题

尤其是在以下情况使用：

在时间压力下（紧急情况使猜测变得诱人）
"就一个快速修复"看起来很明显
你已经尝试了多个修复
之前的修复没有奏效
你不完全理解问题

不要跳过当：

问题看起来简单（简单bug也有根本原因）
你赶时间（匆忙保证返工）
经理想要立即修复（系统化比挣扎更快）

四阶段

你必须完成每个阶段才能进入下一个。

阶段1：根因调查

在尝试任何修复之前：

仔细阅读错误消息
- 不要跳过错误或警告
- 它们通常包含确切的解决方案
- 完整阅读堆栈跟踪
- 注意行号、文件路径、错误代码
一致地重现
- 你能可靠地触发它吗？
- 确切的步骤是什么？
- 每次都发生吗？
- 如果不可重现 → 收集更多数据，不要猜测
检查最近的变化
- 什么变化可能导致这个问题？
- Git diff，最近的提交
- 新依赖项，配置更改
- 环境差异

在多组件系统中收集证据

当系统有多个组件（CI → 构建 → 签名，API → 服务 → 数据库）：

在提出修复之前，添加诊断工具：

对于每个组件边界：
  - 记录数据进入组件
  - 记录数据退出组件
  - 验证环境/配置传播
  - 检查每一层的状态

运行一次以收集证据显示它在何处断裂
然后分析证据以识别失败组件
然后调查该特定组件

示例（多层系统）：

# 层1：工作流程
echo "=== 工作流程中的可用秘密： ==="
echo "IDENTITY: ${IDENTITY:+SET}${IDENTITY:-UNSET}"

# 层2：构建脚本
echo "=== 构建脚本中的环境变量： ==="
env | grep IDENTITY || echo "IDENTITY 不在环境中"

# 层3：签名脚本
echo "=== 密钥链状态： ==="
security list-keychains
security find-identity -v

# 层4：实际签名
codesign --sign "$IDENTITY" --verbose=4 "$APP"

这揭示： 哪一层失败（秘密 → 工作流程 ✓，工作流程 → 构建 ✗）

跟踪数据流

当错误在调用堆栈深处时：

参见 root-cause-tracing 技能以进行后向跟踪技术

快速版本：
- 错误值起源何处？
- 什么用错误值调用了这个？
- 继续向上追溯直到找到来源
- 在源头修复，而不是在症状处

阶段2：模式分析

在修复前找到模式：

找到工作示例
- 在相同代码库中定位类似的工作代码
- 什么与损坏的部分类似但工作？
与参考比较
- 如果实现模式，完整阅读参考实现
- 不要浏览 - 阅读每一行
- 在应用前完全理解模式
识别差异
- 工作与损坏之间有何不同？
- 列出每一个差异，无论多小
- 不要假设"那不重要"
理解依赖
- 这需要什么其他组件？
- 需要什么设置、配置、环境？
- 它做何假设？

阶段3：假设和测试

科学方法：

形成单一假设
- 清晰陈述：“我认为 X 是根因，因为 Y”
- 写下来
- 具体，不要模糊
最小化测试
- 做最小的可能改变以测试假设
- 一次一个变量
- 不要一次修复多个东西
在继续前验证
- 它工作了吗？是 → 阶段4
- 没工作？形成新假设
- 不要在此基础上添加更多修复
当你不知道时
- 说"我不理解 X"
- 不要假装知道
- 请求帮助
- 更多研究

阶段4：实施

修复根本原因，而不是症状：

创建失败测试用例
- 最简单的可能重现
- 如果可能，自动化测试
- 如果没有框架，一次性测试脚本
- 在修复前必须有
```
# 用 bun 创建测试（首选）
bun test my-fix.test.ts

# 或用 npm
npm test -- my-fix.test.ts
```
实施单一修复
- 解决识别的根本原因
- 一次一个改变
- 没有"既然我在这里"改进
- 没有捆绑重构

验证修复

测试现在通过了吗？
没有其他测试中断？
问题真正解决了吗？

# 运行完整测试套件
bun test  # 或：npm test

# 运行特定测试
bun test --grep "我的修复"

如果修复不工作
- 停止
- 计数：你尝试了多少次修复？
- 如果 < 3：返回阶段1，用新信息重新分析
- 如果 ≥ 3：停止并质疑架构（步骤5）
- 不要在没有架构讨论的情况下尝试第4次修复
如果3次以上修复失败：质疑架构

指示架构问题的模式：
- 每个修复揭示新的共享状态/耦合/问题在不同地方
- 修复需要"大规模重构"来实现
- 每个修复在其他地方创建新症状
停止并质疑基础：
- 这个模式根本上正确吗？
- 我们是在"纯粹惯性地坚持"吗？
- 我们应该重构架构 vs. 继续修复症状吗？
在尝试更多修复前与人类伙伴讨论

这不是失败的假设 - 这是错误的架构。

红旗 - 停止并遵循过程

如果你发现自己思考：

“现在快速修复，稍后调查”
“就改变 X 看看它是否工作”
“添加多个改变，运行测试”
“跳过测试，我会手动验证”
“可能是 X，让我修复那个”
“我不完全理解但这可能工作”
“模式说 X 但我会不同地适应它”
“这是主要问题：[在没有调查的情况下列出修复]”
在没有跟踪数据流的情况下提出解决方案
“再多一次修复尝试”（当已经尝试了2次以上）
每个修复揭示新问题在不同地方

所有这些意味着：停止。返回到阶段1。

如果3次以上修复失败： 质疑架构（参见阶段4.5）

常见合理化

借口	现实
“问题简单，不需要过程”	简单问题也有根本原因。过程对简单bug很快。
“紧急，没时间进行过程”	系统化调试比猜测和挣扎更快。
“先试试这个，再调查”	第一次修复设定了模式。从一开始就做对。
“确认修复工作后我会写测试”	未经测试的修复不持久。先测试证明它。
“一次多个修复节省时间”	不能隔离什么奏效。导致新bug。
“参考太长，我会适应模式”	部分理解保证bug。完全阅读它。
“我看到问题，让我修复它”	看到症状 ≠ 理解根本原因。
“再多一次修复尝试”（在2次以上失败后）	3次以上失败 = 架构问题。质疑模式，不要再修复。

快速参考

阶段	关键活动	成功标准
1. 根因	阅读错误、重现、检查变化、收集证据	理解什么和为什么
2. 模式	找到工作示例、比较	识别差异
3. 假设	形成理论、最小化测试	确认或新假设
4. 实施	创建测试、修复、验证	Bug解决，测试通过

当过程揭示"没有根因"时

如果系统化调查揭示问题真正是环境、时间依赖或外部的：

你已经完成过程
记录你调查了什么
实施适当处理（重试、超时、错误消息）
为未来调查添加监控/日志

但是： 95% 的"没有根因"案例是调查不完整。

与其他技能集成

这个技能与以下一起工作：

root-cause-tracing - 如何通过调用堆栈向后跟踪
defense-in-depth-validation - 在找到根因后添加验证
verification-before-completion - 在声称成功前验证修复工作

实际影响

从调试会话：

系统化方法：15-30分钟修复
随机修复方法：2-3小时挣扎
首次修复率：95% vs 40%
引入新bug：接近零 vs 常见