名称: 事件响应 描述: 系统响应生产事故,包括分类、调查、解决和事后分析,以最小化停机时间并防止复发。在处理生产中断、分类事件、调查关键错误、协调事件响应、实施热修复、进行事后分析或建立事件响应程序时使用。
事件响应 - 生产问题管理
何时使用此技能
- 响应生产中断
- 分类关键事件
- 调查高严重性错误
- 协调事件响应团队
- 实施紧急热修复
- 进行事后分析
- 建立事件响应程序
- 在事件期间沟通状态
- 创建常见问题运行手册
- 实施回滚策略
- 记录事件时间线
- 防止事件复发
何时使用此技能
- 响应中断、管理事件、进行事后分析。
- 当处理相关任务或功能时
- 在需要此专业知识的开发过程中
使用时机: 响应中断、管理事件、进行事后分析。
事件响应流程
1. 检测
- 监控警报
- 用户报告
- 自动检查
2. 分类
- 评估严重性 (P0-P4)
- 呼叫值班工程师
- 创建事件频道
3. 缓解
- 回滚到上次已知良好状态
- 扩展资源
- 应用热修复
- 沟通状态
4. 解决
- 验证修复
- 监控指标
- 更新状态页面
- 关闭事件
5. 事后分析
- 事件时间线
- 根本原因分析
- 行动项
- 后续任务
严重性级别
- P0 (关键): 完全中断,数据丢失
- P1 (高): 主要功能损坏,影响收入
- P2 (中): 性能下降,存在变通方案
- P3 (低): 小错误,外观问题
- P4 (信息): 增强请求
示例运行手册
```markdown
高CPU使用率运行手册
症状
- 服务器CPU > 90%
- 响应时间慢
- 请求超时
调查
- 检查顶部进程: `top`
- 检查内存: `free -h`
- 检查日志: `tail -f app.log`
缓解
- 水平扩展: 添加服务器
- 重启服务: `systemctl restart app`
- 速率限制: 启用激进速率限制
解决
- 识别根本原因 (N+1查询,内存泄漏等)
- 部署修复
- 监控1小时 ```
通信模板
``` [事件] 服务X性能下降
状态: 调查中 影响: 20%用户看到加载时间慢 预计解决时间: 30分钟
更新:
- 10:00: 问题检测到
- 10:05: 呼叫值班,调查开始
- 10:15: 根本原因识别 (数据库瓶颈)
- 10:30: 修复部署,监控中
下次更新: 11:00 ```