事件响应手册
为业务和IT团队提供结构化的事件响应流程。指导您完成检测、分类、遏制、解决和事后复盘——包含自动生成的时间线和行动项。
功能概述
当触发事件描述时,本技能将:
- 根据影响和紧急程度对严重性进行分类(P1-P4)
- 生成针对事件类型的响应清单(服务中断、数据泄露、安全事件、服务降级、供应商故障)
- 制定沟通计划——通知谁、何时通知、使用何种渠道
- 在您记录更新时创建实时时间线
- 生成事后复盘模板,包含根本原因分析和预防措施
使用方法
向您的代理描述事件:
“生产环境API对20%的请求返回500错误。10分钟前开始。”
或主动触发:
“为潜在的数据泄露场景创建一个事件响应计划”
涵盖的事件类型
- 服务中断——完全或部分停机
- 安全事件——数据泄露、未授权访问、钓鱼攻击
- 数据事件——数据损坏、丢失、隐私侵犯
- 供应商故障——第三方SLA违约
- 性能降级——延迟激增、容量问题
严重性矩阵
| 等级 | 影响 | 响应时间 | 升级路径 |
|---|---|---|---|
| P1 - 严重 | 业务停止 | 立即 | 高管 + 全员参与 |
| P2 - 高 | 主要功能不可用 | < 30 分钟 | 工程负责人 + 产品经理 |
| P3 - 中 | 体验降级 | < 2 小时 | 值班团队 |
| P4 - 低 | 次要问题 | 下一个工作日 | 工单队列 |
响应框架
1. 检测与分类(前5分钟)
- 确认事件真实存在(非误报)
- 使用上述矩阵对严重性进行分类
- 指派事件指挥官
- 开启专用沟通渠道
2. 遏制(前30分钟)
- 确定影响范围——哪些部分受影响?
- 应用即时缓解措施(回滚、功能开关、扩缩容)
- 向利益相关者通报状态
3. 解决
- 根本原因调查
- 实施修复并进行验证
- 监控是否复发
- 更新所有利益相关者
4. 事后复盘(48小时内)
- 事件时间线
- 根本原因分析(5个为什么)
- 哪些做得好 / 哪些做得不好
- 带有负责人和截止日期的行动项
- 流程改进
集成
可与任何监控堆栈配合使用。接收来自PagerDuty、Datadog、Grafana的警报或手动报告。
专业提示
将此技能与您所在行业的完整AI运维上下文包搭配使用。包含预构建的事件分类法、合规感知的升级路径和自动化利益相关者模板。
浏览上下文包:https://afrexai-cto.github.io/context-packs/
免费工具: