name: 事件响应 description: 系统响应生产事件,包括分类、调查、解决和后处理分析,以最小化停机时间并防止复发。用于处理生产中断、分类事故、调查关键错误、协调事件响应、实施热修复、进行后处理分析或建立事件响应程序。
事件响应 - 生产问题管理
何时使用此技能
- 响应生产中断
- 分类关键事故
- 调查高严重性错误
- 协调事件响应团队
- 实施紧急热修复
- 进行后处理分析
- 建立事件响应程序
- 在事故期间沟通状态
- 创建常见问题运行手册
- 实施回滚策略
- 记录事故时间线
- 防止事故复发
何时使用此技能
- 响应中断、管理事故、进行后处理分析。
- 当处理相关任务或功能时
- 在需要此专业知识的开发过程中
使用时机:响应中断、管理事故、进行后处理分析。
事件响应流程
1. 检测
- 监控警报
- 用户报告
- 自动检查
2. 分类
- 评估严重性(P0-P4)
- 呼叫值班工程师
- 创建事故频道
3. 缓解
- 回滚到最后一个已知良好状态
- 扩展资源
- 应用热修复
- 沟通状态
4. 解决
- 验证修复
- 监控指标
- 更新状态页面
- 关闭事故
5. 后处理分析
- 事件时间线
- 根因分析
- 行动项
- 后续任务
严重性级别
- P0(关键):完全中断,数据丢失
- P1(高):主要功能损坏,收入影响
- P2(中):性能下降,存在变通方案
- P3(低):小错误,外观问题
- P4(信息性):增强请求
示例运行手册
# 高CPU使用率运行手册
## 症状
- 服务器CPU > 90%
- 响应时间慢
- 请求超时
## 调查
1. 检查顶级进程:`top`
2. 检查内存:`free -h`
3. 检查日志:`tail -f app.log`
## 缓解
1. 水平扩展:添加服务器
2. 重启服务:`systemctl restart app`
3. 速率限制:启用积极速率限制
## 解决
1. 识别根因(N+1查询、内存泄漏等)
2. 部署修复
3. 监控1小时
沟通模板
[事故] 服务X性能下降
状态:调查中
影响:20%的用户看到加载时间慢
预计时间:30分钟
更新:
- 10:00 AM:问题检测
- 10:05 AM:值班呼叫,调查开始
- 10:15 AM:根因识别(数据库瓶颈)
- 10:30 AM:修复部署,监控中
下次更新:11:00 AM