name: incident-response description: 使用Sentry警报和问题跟踪管理事件响应工作流
事件响应
名称
sentry:incident-response - 使用Sentry警报和问题跟踪管理事件响应工作流
概要
/incident-response [arguments]
描述
协调事件响应,使用Sentry的监控和警报功能,快速识别、分类和解决生产问题。
实现
此命令为响应由Sentry检测到的生产事件提供了一个结构化的工作流。
用法
/incident-response [incident-type]
此命令的功能
- 从Sentry警报检测活跃事件
- 提供事件概览,包括:
- 受影响的服务和用户
- 错误率和趋势
- 可能相关的最近部署
- 引导通过事件响应工作流:
- 评估严重性和影响
- 使用Seer AI识别根本原因
- 创建行动项
- 跟踪解决进度
- 更新问题状态并分配团队
- 协调关于事件状态的沟通
- 执行事后分析
先决条件
- 必须安装和配置Sentry MCP服务器
- 必须完成与Sentry的OAuth认证
- 在Sentry中配置警报规则
- 访问相关的Sentry项目
示例交互
用户: /incident-response
Claude: 正在检查Sentry中的活跃事件...
## 检测到的活跃事件:2
### 事件 #1:支付服务高错误率
- **严重性**: 关键
- **状态**: 进行中(开始于23分钟前)
- **受影响服务**: payment-processor(生产环境)
- **影响**:
- 错误率:45%(正常:0.2%)
- 受影响用户:约2,300
- 失败交易:1,247
**主要问题:**
TypeError: Cannot read property 'amount' of null
- 事件:1,247(飙升)
- 首次出现:23分钟前
- 关联:v3.2.1部署(25分钟前)
**推荐操作:**
1. 立即回滚到v3.2.0
2. 调查支付金额处理中的null处理
3. 启用功能标志绕过新代码路径
您希望我帮助回滚或调查吗?
---
### 事件 #2:数据库连接池耗尽
- **严重性**: 高
- **状态**: 进行中(开始于1小时前)
- **受影响服务**: api-backend(生产环境)
- **影响**:
- 慢响应时间:P95 4,200ms(正常:800ms)
- 受影响用户:约890
- 超时错误:234
**主要问题:**
Error: Connection pool timeout after 30000ms
- 事件:234(稳定)
- 模式:2小时内逐渐增加
- 可能原因:数据库查询中的连接泄漏
**推荐操作:**
1. 重启连接池(临时修复)
2. 审计未关闭的数据库连接
3. 增加池大小作为立即缓解措施
4. 审查最近的数据库查询更改
---
## 事件响应工作流
对于事件 #1(关键),我推荐:
**阶段 1:立即缓解(现在)**
1. 执行回滚到v3.2.0
2. 验证错误率恢复正常
3. 启用监控以确认回滚
**阶段 2:调查(接下来30分钟)**
1. 使用Seer AI分析v3.2.1的根本原因
2. 审查影响支付处理的代码更改
3. 识别null值的来源
**阶段 3:修复和部署(接下来2-4小时)**
1. 实现访问金额前的null检查
2. 添加null支付场景的单元测试
3. 部署修复并逐步推出
4. 在部署期间监控错误率
**阶段 4:事后处理(解决后)**
1. 记录根本原因和修复
2. 更新运行手册包括此事件
3. 为类似模式添加警报
4. 审查部署清单
您想首先关注哪个事件?
事件响应操作
此命令可以帮助:
-
评估影响
- 计算受影响用户数
- 计算错误率
- 识别受影响功能
-
查找根本原因
- 关联最近部署
- 使用Seer AI进行自动分析
- 审查相关代码更改
- 检查基础设施指标
-
缓解
- 指导回滚决策
- 建议功能标志策略
- 推荐流量转移
-
沟通
- 起草状态更新
- 识别需通知的利益相关者
- 跟踪事件时间线
-
解决
- 验证修复效果
- 监控错误率恢复
- 更新问题状态
-
学习
- 生成事后分析大纲
- 识别预防措施
- 记录经验教训
参数
incident-type(可选):error-spike, performance-degradation, outage
提示
- 设置Sentry警报规则以进行主动检测
- 集成PagerDuty或Slack进行通知
- 使用Seer AI进行更快的根本原因分析
- 在运行手册中记录事件响应程序
- 标记事件以进行模式分析
- 定期审查事件以寻找预防机会
相关命令
/investigate-errors:深入调查特定错误/check-releases:验证发布关联/analyze-performance:检查性能影响/query-events:自定义调查查询