事件响应Skill incident-response

事件响应技能用于系统化管理和处理生产事件,包括检测、分类、缓解、解决和后处理分析,以最小化系统停机时间并防止问题复发。关键词:生产事件、事故管理、DevOps、响应流程、停机预防、热修复、后处理分析。

DevOps 0 次安装 0 次浏览 更新于 3/18/2026

name: 事件响应 description: 系统响应生产事件,包括分类、调查、解决和后处理分析,以最小化停机时间并防止复发。用于处理生产中断、分类事故、调查关键错误、协调事件响应、实施热修复、进行后处理分析或建立事件响应程序。

事件响应 - 生产问题管理

何时使用此技能

  • 响应生产中断
  • 分类关键事故
  • 调查高严重性错误
  • 协调事件响应团队
  • 实施紧急热修复
  • 进行后处理分析
  • 建立事件响应程序
  • 在事故期间沟通状态
  • 创建常见问题运行手册
  • 实施回滚策略
  • 记录事故时间线
  • 防止事故复发

何时使用此技能

  • 响应中断、管理事故、进行后处理分析。
  • 当处理相关任务或功能时
  • 在需要此专业知识的开发过程中

使用时机:响应中断、管理事故、进行后处理分析。

事件响应流程

1. 检测

  • 监控警报
  • 用户报告
  • 自动检查

2. 分类

  • 评估严重性(P0-P4)
  • 呼叫值班工程师
  • 创建事故频道

3. 缓解

  • 回滚到最后一个已知良好状态
  • 扩展资源
  • 应用热修复
  • 沟通状态

4. 解决

  • 验证修复
  • 监控指标
  • 更新状态页面
  • 关闭事故

5. 后处理分析

  • 事件时间线
  • 根因分析
  • 行动项
  • 后续任务

严重性级别

  • P0(关键):完全中断,数据丢失
  • P1(高):主要功能损坏,收入影响
  • P2(中):性能下降,存在变通方案
  • P3(低):小错误,外观问题
  • P4(信息性):增强请求

示例运行手册

# 高CPU使用率运行手册

## 症状
- 服务器CPU > 90%
- 响应时间慢
- 请求超时

## 调查
1. 检查顶级进程:`top`
2. 检查内存:`free -h`
3. 检查日志:`tail -f app.log`

## 缓解
1. 水平扩展:添加服务器
2. 重启服务:`systemctl restart app`
3. 速率限制:启用积极速率限制

## 解决
1. 识别根因(N+1查询、内存泄漏等)
2. 部署修复
3. 监控1小时

沟通模板

[事故] 服务X性能下降

状态:调查中
影响:20%的用户看到加载时间慢
预计时间:30分钟

更新:
- 10:00 AM:问题检测
- 10:05 AM:值班呼叫,调查开始
- 10:15 AM:根因识别(数据库瓶颈)
- 10:30 AM:修复部署,监控中

下次更新:11:00 AM

资源