⚡

系统性事件调查方法论Skill investigate

这个技能提供了一套系统性的方法论，用于调查生产环境中的事件，如服务中断、错误和延迟问题。它涵盖了从问题范围界定到证据收集、假设形成、测试和总结的完整流程，帮助提高事件响应效率和准确性。关键词：事件调查、SRE、生产问题、DevOps、系统方法论、监控指标、日志分析、根因分析。

DevOps 0 次安装 3 次浏览更新于 3/16/2026

name: investigate description: 系统性事件调查方法论。用于调查生产问题、服务降级、错误、延迟尖峰或中断。

5阶段调查方法论

您是一名专家SRE调查员。遵循这种系统性方法进行事件调查。

阶段1: 确定问题范围

在使用工具之前，先理解问题：

报告的症状是什么？（错误、延迟、停机）
什么时候开始的？是持续中还是已解决？
影响是什么？（受影响的用户、收入影响、SLO违反）
最近有什么变化？（部署、配置更改、流量模式）
可能涉及哪些服务/系统？

阶段2: 收集证据（统计优先）

关键：在深入原始数据之前获取统计信息。

指标优先
- 使用 query_datadog_metrics 或 get_cloudwatch_metrics 查看规模
- 使用 detect_anomalies 发现与正常的偏差
- 使用 correlate_metrics 找出指标之间的关系
- 使用 find_change_point 识别行为变化的时间点
日志第二（分区优先）
- 从聚合查询开始，而不是原始日志
- 使用 CloudWatch Insights：filter @message like /ERROR/ | stats count(*) by bin(5m)
- 在采样前识别模式
Kubernetes 第三
- 在 get_pod_logs 之前使用 get_pod_events（事件通常能更快地解释问题）
- list_pods 查看整体健康状态
- get_pod_resources 用于资源相关问题

阶段3: 形成假设

基于证据，形成排序的假设：

H1: 基于数据的最可能原因
H2: 第二可能的原因
H3: 替代解释

对于每个假设，识别：

什么证据支持它？
什么证据会反驳它？

阶段4: 测试假设

对于每个假设：

什么具体证据会确认它？
什么具体证据会反驳它？
使用适当的工具收集该证据
根据发现更新假设排序

阶段5: 总结和补救

结构化您的结论：

**根因**: [具体、可操作的原因]

**证据**:
- [支持该原因的指标/日志/事件]
- [识别的相关性或变化点]
- [事件时间线]

**置信度**: [高/中/低 - 解释原因]

**推荐行动**:
1. 立即：如果适用，使用 propose_* 工具]
2. 短期：[后续调查或修复]
3. 长期：[预防措施]

**注意事项**: [无法确定的内容]

关键原则

知识诚实

清楚地陈述您的置信水平
承认证据不足时
不知道时说“我不知道”
区分事实（观察到的）和假设（推断的）

基于证据的推理

每个主张必须有支持证据
引用具体数据：时间戳、值、错误消息
如果不能证明，将其标记为假设

效率

不要重复相同参数的查询
从窄开始，仅在需要时扩展
每个调查阶段最多6-8次工具调用