name: 系统化调试 description: 一个四阶段调试框架,确保在尝试修复前进行根因调查。永远不要跳到解决方案。在任何遇到bug、测试失败或意外行为时使用,在提出修复之前。 version: 2.1.0
系统化调试
概述
随机修复浪费时间和创建新bug。快速补丁掩盖了潜在问题。
核心原则: 在尝试修复前,永远要找到根本原因。症状修复是失败的。
违反此过程的字面就是违反调试的精神。
铁律
没有先进行根因调查,就不进行修复
如果你没有完成阶段1,你不能提出修复。
何时使用
适用于任何技术问题:
- 测试失败
- 生产中的bug
- 意外行为
- 性能问题
- 构建失败
- 集成问题
尤其是在以下情况使用:
- 在时间压力下(紧急情况使猜测变得诱人)
- "就一个快速修复"看起来很明显
- 你已经尝试了多个修复
- 之前的修复没有奏效
- 你不完全理解问题
不要跳过当:
- 问题看起来简单(简单bug也有根本原因)
- 你赶时间(匆忙保证返工)
- 经理想要立即修复(系统化比挣扎更快)
四阶段
你必须完成每个阶段才能进入下一个。
阶段1:根因调查
在尝试任何修复之前:
-
仔细阅读错误消息
- 不要跳过错误或警告
- 它们通常包含确切的解决方案
- 完整阅读堆栈跟踪
- 注意行号、文件路径、错误代码
-
一致地重现
- 你能可靠地触发它吗?
- 确切的步骤是什么?
- 每次都发生吗?
- 如果不可重现 → 收集更多数据,不要猜测
-
检查最近的变化
- 什么变化可能导致这个问题?
- Git diff,最近的提交
- 新依赖项,配置更改
- 环境差异
-
在多组件系统中收集证据
当系统有多个组件(CI → 构建 → 签名,API → 服务 → 数据库):
在提出修复之前,添加诊断工具:
对于每个组件边界: - 记录数据进入组件 - 记录数据退出组件 - 验证环境/配置传播 - 检查每一层的状态 运行一次以收集证据显示它在何处断裂 然后分析证据以识别失败组件 然后调查该特定组件示例(多层系统):
# 层1:工作流程 echo "=== 工作流程中的可用秘密: ===" echo "IDENTITY: ${IDENTITY:+SET}${IDENTITY:-UNSET}" # 层2:构建脚本 echo "=== 构建脚本中的环境变量: ===" env | grep IDENTITY || echo "IDENTITY 不在环境中" # 层3:签名脚本 echo "=== 密钥链状态: ===" security list-keychains security find-identity -v # 层4:实际签名 codesign --sign "$IDENTITY" --verbose=4 "$APP"这揭示: 哪一层失败(秘密 → 工作流程 ✓,工作流程 → 构建 ✗)
-
跟踪数据流
当错误在调用堆栈深处时:
参见 root-cause-tracing 技能以进行后向跟踪技术
快速版本:
- 错误值起源何处?
- 什么用错误值调用了这个?
- 继续向上追溯直到找到来源
- 在源头修复,而不是在症状处
阶段2:模式分析
在修复前找到模式:
-
找到工作示例
- 在相同代码库中定位类似的工作代码
- 什么与损坏的部分类似但工作?
-
与参考比较
- 如果实现模式,完整阅读参考实现
- 不要浏览 - 阅读每一行
- 在应用前完全理解模式
-
识别差异
- 工作与损坏之间有何不同?
- 列出每一个差异,无论多小
- 不要假设"那不重要"
-
理解依赖
- 这需要什么其他组件?
- 需要什么设置、配置、环境?
- 它做何假设?
阶段3:假设和测试
科学方法:
-
形成单一假设
- 清晰陈述:“我认为 X 是根因,因为 Y”
- 写下来
- 具体,不要模糊
-
最小化测试
- 做最小的可能改变以测试假设
- 一次一个变量
- 不要一次修复多个东西
-
在继续前验证
- 它工作了吗? 是 → 阶段4
- 没工作? 形成新假设
- 不要在此基础上添加更多修复
-
当你不知道时
- 说"我不理解 X"
- 不要假装知道
- 请求帮助
- 更多研究
阶段4:实施
修复根本原因,而不是症状:
-
创建失败测试用例
- 最简单的可能重现
- 如果可能,自动化测试
- 如果没有框架,一次性测试脚本
- 在修复前必须有
# 用 bun 创建测试(首选) bun test my-fix.test.ts # 或用 npm npm test -- my-fix.test.ts -
实施单一修复
- 解决识别的根本原因
- 一次一个改变
- 没有"既然我在这里"改进
- 没有捆绑重构
-
验证修复
- 测试现在通过了吗?
- 没有其他测试中断?
- 问题真正解决了吗?
# 运行完整测试套件 bun test # 或:npm test # 运行特定测试 bun test --grep "我的修复" -
如果修复不工作
- 停止
- 计数:你尝试了多少次修复?
- 如果 < 3:返回阶段1,用新信息重新分析
- 如果 ≥ 3:停止并质疑架构(步骤5)
- 不要在没有架构讨论的情况下尝试第4次修复
-
如果3次以上修复失败:质疑架构
指示架构问题的模式:
- 每个修复揭示新的共享状态/耦合/问题在不同地方
- 修复需要"大规模重构"来实现
- 每个修复在其他地方创建新症状
停止并质疑基础:
- 这个模式根本上正确吗?
- 我们是在"纯粹惯性地坚持"吗?
- 我们应该重构架构 vs. 继续修复症状吗?
在尝试更多修复前与人类伙伴讨论
这不是失败的假设 - 这是错误的架构。
红旗 - 停止并遵循过程
如果你发现自己思考:
- “现在快速修复,稍后调查”
- “就改变 X 看看它是否工作”
- “添加多个改变,运行测试”
- “跳过测试,我会手动验证”
- “可能是 X,让我修复那个”
- “我不完全理解但这可能工作”
- “模式说 X 但我会不同地适应它”
- “这是主要问题:[在没有调查的情况下列出修复]”
- 在没有跟踪数据流的情况下提出解决方案
- “再多一次修复尝试”(当已经尝试了2次以上)
- 每个修复揭示新问题在不同地方
所有这些意味着:停止。返回到阶段1。
如果3次以上修复失败: 质疑架构(参见阶段4.5)
常见合理化
| 借口 | 现实 |
|---|---|
| “问题简单,不需要过程” | 简单问题也有根本原因。过程对简单bug很快。 |
| “紧急,没时间进行过程” | 系统化调试比猜测和挣扎更快。 |
| “先试试这个,再调查” | 第一次修复设定了模式。从一开始就做对。 |
| “确认修复工作后我会写测试” | 未经测试的修复不持久。先测试证明它。 |
| “一次多个修复节省时间” | 不能隔离什么奏效。导致新bug。 |
| “参考太长,我会适应模式” | 部分理解保证bug。完全阅读它。 |
| “我看到问题,让我修复它” | 看到症状 ≠ 理解根本原因。 |
| “再多一次修复尝试”(在2次以上失败后) | 3次以上失败 = 架构问题。质疑模式,不要再修复。 |
快速参考
| 阶段 | 关键活动 | 成功标准 |
|---|---|---|
| 1. 根因 | 阅读错误、重现、检查变化、收集证据 | 理解什么和为什么 |
| 2. 模式 | 找到工作示例、比较 | 识别差异 |
| 3. 假设 | 形成理论、最小化测试 | 确认或新假设 |
| 4. 实施 | 创建测试、修复、验证 | Bug解决,测试通过 |
当过程揭示"没有根因"时
如果系统化调查揭示问题真正是环境、时间依赖或外部的:
- 你已经完成过程
- 记录你调查了什么
- 实施适当处理(重试、超时、错误消息)
- 为未来调查添加监控/日志
但是: 95% 的"没有根因"案例是调查不完整。
与其他技能集成
这个技能与以下一起工作:
- root-cause-tracing - 如何通过调用堆栈向后跟踪
- defense-in-depth-validation - 在找到根因后添加验证
- verification-before-completion - 在声称成功前验证修复工作
实际影响
从调试会话:
- 系统化方法:15-30分钟修复
- 随机修复方法:2-3小时挣扎
- 首次修复率:95% vs 40%
- 引入新bug:接近零 vs 常见