事件响应管理Skill incident-response

此技能用于通过Sentry的监控和警报功能,协调事件响应工作流,帮助团队快速识别、分类和解决生产问题,包括评估影响、查找根本原因、缓解、沟通、解决和学习等关键步骤。关键词:Sentry、事件响应、监控、警报、DevOps、问题跟踪、生产问题解决、Seer AI、工作流协调。

DevOps 0 次安装 0 次浏览 更新于 3/25/2026

name: incident-response description: 使用Sentry警报和问题跟踪管理事件响应工作流

事件响应

名称

sentry:incident-response - 使用Sentry警报和问题跟踪管理事件响应工作流

概要

/incident-response [arguments]

描述

协调事件响应,使用Sentry的监控和警报功能,快速识别、分类和解决生产问题。

实现

此命令为响应由Sentry检测到的生产事件提供了一个结构化的工作流。

用法

/incident-response [incident-type]

此命令的功能

  1. 从Sentry警报检测活跃事件
  2. 提供事件概览,包括:
    • 受影响的服务和用户
    • 错误率和趋势
    • 可能相关的最近部署
  3. 引导通过事件响应工作流:
    • 评估严重性和影响
    • 使用Seer AI识别根本原因
    • 创建行动项
    • 跟踪解决进度
  4. 更新问题状态并分配团队
  5. 协调关于事件状态的沟通
  6. 执行事后分析

先决条件

  • 必须安装和配置Sentry MCP服务器
  • 必须完成与Sentry的OAuth认证
  • 在Sentry中配置警报规则
  • 访问相关的Sentry项目

示例交互

用户: /incident-response

Claude: 正在检查Sentry中的活跃事件...

## 检测到的活跃事件:2

### 事件 #1:支付服务高错误率
- **严重性**: 关键
- **状态**: 进行中(开始于23分钟前)
- **受影响服务**: payment-processor(生产环境)
- **影响**:
  - 错误率:45%(正常:0.2%)
  - 受影响用户:约2,300
  - 失败交易:1,247

**主要问题:**
TypeError: Cannot read property 'amount' of null
- 事件:1,247(飙升)
- 首次出现:23分钟前
- 关联:v3.2.1部署(25分钟前)

**推荐操作:**
1. 立即回滚到v3.2.0
2. 调查支付金额处理中的null处理
3. 启用功能标志绕过新代码路径

您希望我帮助回滚或调查吗?

---

### 事件 #2:数据库连接池耗尽
- **严重性**: 高
- **状态**: 进行中(开始于1小时前)
- **受影响服务**: api-backend(生产环境)
- **影响**:
  - 慢响应时间:P95 4,200ms(正常:800ms)
  - 受影响用户:约890
  - 超时错误:234

**主要问题:**
Error: Connection pool timeout after 30000ms
- 事件:234(稳定)
- 模式:2小时内逐渐增加
- 可能原因:数据库查询中的连接泄漏

**推荐操作:**
1. 重启连接池(临时修复)
2. 审计未关闭的数据库连接
3. 增加池大小作为立即缓解措施
4. 审查最近的数据库查询更改

---

## 事件响应工作流

对于事件 #1(关键),我推荐:

**阶段 1:立即缓解(现在)**
1. 执行回滚到v3.2.0
2. 验证错误率恢复正常
3. 启用监控以确认回滚

**阶段 2:调查(接下来30分钟)**
1. 使用Seer AI分析v3.2.1的根本原因
2. 审查影响支付处理的代码更改
3. 识别null值的来源

**阶段 3:修复和部署(接下来2-4小时)**
1. 实现访问金额前的null检查
2. 添加null支付场景的单元测试
3. 部署修复并逐步推出
4. 在部署期间监控错误率

**阶段 4:事后处理(解决后)**
1. 记录根本原因和修复
2. 更新运行手册包括此事件
3. 为类似模式添加警报
4. 审查部署清单

您想首先关注哪个事件?

事件响应操作

此命令可以帮助:

  1. 评估影响

    • 计算受影响用户数
    • 计算错误率
    • 识别受影响功能
  2. 查找根本原因

    • 关联最近部署
    • 使用Seer AI进行自动分析
    • 审查相关代码更改
    • 检查基础设施指标
  3. 缓解

    • 指导回滚决策
    • 建议功能标志策略
    • 推荐流量转移
  4. 沟通

    • 起草状态更新
    • 识别需通知的利益相关者
    • 跟踪事件时间线
  5. 解决

    • 验证修复效果
    • 监控错误率恢复
    • 更新问题状态
  6. 学习

    • 生成事后分析大纲
    • 识别预防措施
    • 记录经验教训

参数

  • incident-type(可选):error-spike, performance-degradation, outage

提示

  • 设置Sentry警报规则以进行主动检测
  • 集成PagerDuty或Slack进行通知
  • 使用Seer AI进行更快的根本原因分析
  • 在运行手册中记录事件响应程序
  • 标记事件以进行模式分析
  • 定期审查事件以寻找预防机会

相关命令

  • /investigate-errors:深入调查特定错误
  • /check-releases:验证发布关联
  • /analyze-performance:检查性能影响
  • /query-events:自定义调查查询