name: 事件响应 description: 系统响应生产事件，包括分类、调查、解决和后处理分析，以最小化停机时间并防止复发。用于处理生产中断、分类事故、调查关键错误、协调事件响应、实施热修复、进行后处理分析或建立事件响应程序。

事件响应 - 生产问题管理

何时使用此技能

响应生产中断
分类关键事故
调查高严重性错误
协调事件响应团队
实施紧急热修复
进行后处理分析
建立事件响应程序
在事故期间沟通状态
创建常见问题运行手册
实施回滚策略
记录事故时间线
防止事故复发

何时使用此技能

响应中断、管理事故、进行后处理分析。
当处理相关任务或功能时
在需要此专业知识的开发过程中

使用时机：响应中断、管理事故、进行后处理分析。

事件响应流程

1. 检测

监控警报
用户报告
自动检查

2. 分类

评估严重性（P0-P4）
呼叫值班工程师
创建事故频道

3. 缓解

回滚到最后一个已知良好状态
扩展资源
应用热修复
沟通状态

4. 解决

验证修复
监控指标
更新状态页面
关闭事故

5. 后处理分析

事件时间线
根因分析
行动项
后续任务

严重性级别

P0（关键）：完全中断，数据丢失
P1（高）：主要功能损坏，收入影响
P2（中）：性能下降，存在变通方案
P3（低）：小错误，外观问题
P4（信息性）：增强请求

示例运行手册

# 高CPU使用率运行手册

## 症状
- 服务器CPU > 90%
- 响应时间慢
- 请求超时

## 调查
1. 检查顶级进程：`top`
2. 检查内存：`free -h`
3. 检查日志：`tail -f app.log`

## 缓解
1. 水平扩展：添加服务器
2. 重启服务：`systemctl restart app`
3. 速率限制：启用积极速率限制

## 解决
1. 识别根因（N+1查询、内存泄漏等）
2. 部署修复
3. 监控1小时

沟通模板

[事故] 服务X性能下降

状态：调查中
影响：20%的用户看到加载时间慢
预计时间：30分钟

更新：
- 10:00 AM：问题检测
- 10:05 AM：值班呼叫，调查开始
- 10:15 AM：根因识别（数据库瓶颈）
- 10:30 AM：修复部署，监控中

下次更新：11:00 AM

事件响应 - 生产问题管理

何时使用此技能

何时使用此技能

事件响应流程

1. 检测

2. 分类

3. 缓解

4. 解决

5. 后处理分析

严重性级别

示例运行手册

沟通模板

资源