名称: 事件响应描述: 系统响应生产事故，包括分类、调查、解决和事后分析，以最小化停机时间并防止复发。在处理生产中断、分类事件、调查关键错误、协调事件响应、实施热修复、进行事后分析或建立事件响应程序时使用。

事件响应 - 生产问题管理

何时使用此技能

响应生产中断
分类关键事件
调查高严重性错误
协调事件响应团队
实施紧急热修复
进行事后分析
建立事件响应程序
在事件期间沟通状态
创建常见问题运行手册
实施回滚策略
记录事件时间线
防止事件复发

何时使用此技能

响应中断、管理事件、进行事后分析。
当处理相关任务或功能时
在需要此专业知识的开发过程中

使用时机: 响应中断、管理事件、进行事后分析。

事件响应流程

1. 检测

监控警报
用户报告
自动检查

2. 分类

评估严重性 (P0-P4)
呼叫值班工程师
创建事件频道

3. 缓解

回滚到上次已知良好状态
扩展资源
应用热修复
沟通状态

4. 解决

验证修复
监控指标
更新状态页面
关闭事件

5. 事后分析

事件时间线
根本原因分析
行动项
后续任务

严重性级别

P0 (关键): 完全中断，数据丢失
P1 (高): 主要功能损坏，影响收入
P2 (中): 性能下降，存在变通方案
P3 (低): 小错误，外观问题
P4 (信息): 增强请求

示例运行手册

```markdown

高CPU使用率运行手册

症状

服务器CPU > 90%
响应时间慢
请求超时

调查

检查顶部进程: `top`
检查内存: `free -h`
检查日志: `tail -f app.log`

缓解

水平扩展: 添加服务器
重启服务: `systemctl restart app`
速率限制: 启用激进速率限制

解决

识别根本原因 (N+1查询，内存泄漏等)
部署修复
监控1小时 ```

通信模板

``` [事件] 服务X性能下降

状态: 调查中影响: 20%用户看到加载时间慢预计解决时间: 30分钟

更新:

10:00: 问题检测到
10:05: 呼叫值班，调查开始
10:15: 根本原因识别 (数据库瓶颈)
10:30: 修复部署，监控中

下次更新: 11:00 ```

事件响应 - 生产问题管理

何时使用此技能

何时使用此技能

事件响应流程

1. 检测

2. 分类

3. 缓解

4. 解决

5. 事后分析

严重性级别

示例运行手册

高CPU使用率运行手册

症状

调查

缓解

解决

通信模板

资源