事件响应手册Skill afrexai-incident-response

本技能是一个AI驱动的自动化事件响应助手,用于帮助企业及IT团队高效处理各类技术故障与安全事件。它能够根据事件描述自动评估严重等级(P1-P4),生成定制化的响应清单、沟通计划与实时时间线,并最终提供结构化的事后复盘模板,助力团队实现快速检测、分类、遏制、解决与持续改进。适用于服务中断、数据泄露、安全攻击、性能降级等多种场景,是提升运维效率与保障业务连续性的关键工具。 关键词:事件响应, 应急响应, 故障处理, 安全事件, 服务中断, 运维自动化, 事后复盘, 根本原因分析, 沟通计划, 严重性分类, DevOps, SRE, IT运维, 业务连续性

安全运维 0 次安装 0 次浏览 更新于 2/24/2026

事件响应手册

为业务和IT团队提供结构化的事件响应流程。指导您完成检测、分类、遏制、解决和事后复盘——包含自动生成的时间线和行动项。

功能概述

当触发事件描述时,本技能将:

  1. 根据影响和紧急程度对严重性进行分类(P1-P4)
  2. 生成针对事件类型的响应清单(服务中断、数据泄露、安全事件、服务降级、供应商故障)
  3. 制定沟通计划——通知谁、何时通知、使用何种渠道
  4. 在您记录更新时创建实时时间线
  5. 生成事后复盘模板,包含根本原因分析和预防措施

使用方法

向您的代理描述事件:

“生产环境API对20%的请求返回500错误。10分钟前开始。”

或主动触发:

“为潜在的数据泄露场景创建一个事件响应计划”

涵盖的事件类型

  • 服务中断——完全或部分停机
  • 安全事件——数据泄露、未授权访问、钓鱼攻击
  • 数据事件——数据损坏、丢失、隐私侵犯
  • 供应商故障——第三方SLA违约
  • 性能降级——延迟激增、容量问题

严重性矩阵

等级 影响 响应时间 升级路径
P1 - 严重 业务停止 立即 高管 + 全员参与
P2 - 高 主要功能不可用 < 30 分钟 工程负责人 + 产品经理
P3 - 中 体验降级 < 2 小时 值班团队
P4 - 低 次要问题 下一个工作日 工单队列

响应框架

1. 检测与分类(前5分钟)

  • 确认事件真实存在(非误报)
  • 使用上述矩阵对严重性进行分类
  • 指派事件指挥官
  • 开启专用沟通渠道

2. 遏制(前30分钟)

  • 确定影响范围——哪些部分受影响?
  • 应用即时缓解措施(回滚、功能开关、扩缩容)
  • 向利益相关者通报状态

3. 解决

  • 根本原因调查
  • 实施修复并进行验证
  • 监控是否复发
  • 更新所有利益相关者

4. 事后复盘(48小时内)

  • 事件时间线
  • 根本原因分析(5个为什么)
  • 哪些做得好 / 哪些做得不好
  • 带有负责人和截止日期的行动项
  • 流程改进

集成

可与任何监控堆栈配合使用。接收来自PagerDuty、Datadog、Grafana的警报或手动报告。

专业提示

将此技能与您所在行业的完整AI运维上下文包搭配使用。包含预构建的事件分类法、合规感知的升级路径和自动化利益相关者模板。

浏览上下文包:https://afrexai-cto.github.io/context-packs/

免费工具: