name: incident-response description: 使用Sentry警报和问题跟踪管理事件响应工作流

事件响应

名称

sentry:incident-response - 使用Sentry警报和问题跟踪管理事件响应工作流

概要

/incident-response [arguments]

描述

协调事件响应，使用Sentry的监控和警报功能，快速识别、分类和解决生产问题。

实现

此命令为响应由Sentry检测到的生产事件提供了一个结构化的工作流。

用法

/incident-response [incident-type]

此命令的功能

从Sentry警报检测活跃事件
提供事件概览，包括：
- 受影响的服务和用户
- 错误率和趋势
- 可能相关的最近部署
引导通过事件响应工作流：
- 评估严重性和影响
- 使用Seer AI识别根本原因
- 创建行动项
- 跟踪解决进度
更新问题状态并分配团队
协调关于事件状态的沟通
执行事后分析

先决条件

必须安装和配置Sentry MCP服务器
必须完成与Sentry的OAuth认证
在Sentry中配置警报规则
访问相关的Sentry项目

示例交互

用户: /incident-response

Claude: 正在检查Sentry中的活跃事件...

## 检测到的活跃事件：2

### 事件 #1：支付服务高错误率
- **严重性**: 关键
- **状态**: 进行中（开始于23分钟前）
- **受影响服务**: payment-processor（生产环境）
- **影响**:
  - 错误率：45%（正常：0.2%）
  - 受影响用户：约2,300
  - 失败交易：1,247

**主要问题:**
TypeError: Cannot read property 'amount' of null
- 事件：1,247（飙升）
- 首次出现：23分钟前
- 关联：v3.2.1部署（25分钟前）

**推荐操作:**
1. 立即回滚到v3.2.0
2. 调查支付金额处理中的null处理
3. 启用功能标志绕过新代码路径

您希望我帮助回滚或调查吗？

---

### 事件 #2：数据库连接池耗尽
- **严重性**: 高
- **状态**: 进行中（开始于1小时前）
- **受影响服务**: api-backend（生产环境）
- **影响**:
  - 慢响应时间：P95 4,200ms（正常：800ms）
  - 受影响用户：约890
  - 超时错误：234

**主要问题:**
Error: Connection pool timeout after 30000ms
- 事件：234（稳定）
- 模式：2小时内逐渐增加
- 可能原因：数据库查询中的连接泄漏

**推荐操作:**
1. 重启连接池（临时修复）
2. 审计未关闭的数据库连接
3. 增加池大小作为立即缓解措施
4. 审查最近的数据库查询更改

---

## 事件响应工作流

对于事件 #1（关键），我推荐：

**阶段 1：立即缓解（现在）**
1. 执行回滚到v3.2.0
2. 验证错误率恢复正常
3. 启用监控以确认回滚

**阶段 2：调查（接下来30分钟）**
1. 使用Seer AI分析v3.2.1的根本原因
2. 审查影响支付处理的代码更改
3. 识别null值的来源

**阶段 3：修复和部署（接下来2-4小时）**
1. 实现访问金额前的null检查
2. 添加null支付场景的单元测试
3. 部署修复并逐步推出
4. 在部署期间监控错误率

**阶段 4：事后处理（解决后）**
1. 记录根本原因和修复
2. 更新运行手册包括此事件
3. 为类似模式添加警报
4. 审查部署清单

您想首先关注哪个事件？

事件响应操作

此命令可以帮助：

评估影响
- 计算受影响用户数
- 计算错误率
- 识别受影响功能
查找根本原因
- 关联最近部署
- 使用Seer AI进行自动分析
- 审查相关代码更改
- 检查基础设施指标
缓解
- 指导回滚决策
- 建议功能标志策略
- 推荐流量转移
沟通
- 起草状态更新
- 识别需通知的利益相关者
- 跟踪事件时间线
解决
- 验证修复效果
- 监控错误率恢复
- 更新问题状态
学习
- 生成事后分析大纲
- 识别预防措施
- 记录经验教训

参数

incident-type（可选）：error-spike, performance-degradation, outage

提示

设置Sentry警报规则以进行主动检测
集成PagerDuty或Slack进行通知
使用Seer AI进行更快的根本原因分析
在运行手册中记录事件响应程序
标记事件以进行模式分析
定期审查事件以寻找预防机会

事件响应管理Skill incident-response

name: incident-response description: 使用Sentry警报和问题跟踪管理事件响应工作流

事件响应

名称

概要

描述

实现

用法

此命令的功能

先决条件

示例交互

事件响应操作

参数

提示

相关命令