事件响应Skill incident-response

事件响应是用于系统管理生产事故的技能,包括检测、分类、缓解、解决和事后分析,旨在最小化停机时间并防止复发。关键词:事件响应、生产事故、DevOps、运维管理、事后分析。

DevOps 0 次安装 0 次浏览 更新于 3/18/2026

名称: 事件响应 描述: 系统响应生产事故,包括分类、调查、解决和事后分析,以最小化停机时间并防止复发。在处理生产中断、分类事件、调查关键错误、协调事件响应、实施热修复、进行事后分析或建立事件响应程序时使用。

事件响应 - 生产问题管理

何时使用此技能

  • 响应生产中断
  • 分类关键事件
  • 调查高严重性错误
  • 协调事件响应团队
  • 实施紧急热修复
  • 进行事后分析
  • 建立事件响应程序
  • 在事件期间沟通状态
  • 创建常见问题运行手册
  • 实施回滚策略
  • 记录事件时间线
  • 防止事件复发

何时使用此技能

  • 响应中断、管理事件、进行事后分析。
  • 当处理相关任务或功能时
  • 在需要此专业知识的开发过程中

使用时机: 响应中断、管理事件、进行事后分析。

事件响应流程

1. 检测

  • 监控警报
  • 用户报告
  • 自动检查

2. 分类

  • 评估严重性 (P0-P4)
  • 呼叫值班工程师
  • 创建事件频道

3. 缓解

  • 回滚到上次已知良好状态
  • 扩展资源
  • 应用热修复
  • 沟通状态

4. 解决

  • 验证修复
  • 监控指标
  • 更新状态页面
  • 关闭事件

5. 事后分析

  • 事件时间线
  • 根本原因分析
  • 行动项
  • 后续任务

严重性级别

  • P0 (关键): 完全中断,数据丢失
  • P1 (高): 主要功能损坏,影响收入
  • P2 (中): 性能下降,存在变通方案
  • P3 (低): 小错误,外观问题
  • P4 (信息): 增强请求

示例运行手册

```markdown

高CPU使用率运行手册

症状

  • 服务器CPU > 90%
  • 响应时间慢
  • 请求超时

调查

  1. 检查顶部进程: `top`
  2. 检查内存: `free -h`
  3. 检查日志: `tail -f app.log`

缓解

  1. 水平扩展: 添加服务器
  2. 重启服务: `systemctl restart app`
  3. 速率限制: 启用激进速率限制

解决

  1. 识别根本原因 (N+1查询,内存泄漏等)
  2. 部署修复
  3. 监控1小时 ```

通信模板

``` [事件] 服务X性能下降

状态: 调查中 影响: 20%用户看到加载时间慢 预计解决时间: 30分钟

更新:

  • 10:00: 问题检测到
  • 10:05: 呼叫值班,调查开始
  • 10:15: 根本原因识别 (数据库瓶颈)
  • 10:30: 修复部署,监控中

下次更新: 11:00 ```

资源