名称: 事件管理平台 描述: 用于PagerDuty、Opsgenie及相关工具的事件管理平台集成 允许使用的工具:
- Bash
- 读取
- 写入
- 编辑
- Glob
- Grep
- WebFetch
事件管理平台技能
概述
专门用于事件管理平台集成和操作的技能。提供对PagerDuty、Opsgenie及相关事件响应工具的深入专业知识。
能力
PagerDuty配置
- 服务和服务目录设置
- 升级策略设计
- 排班配置
- 事件规则和路由
- 服务依赖关系映射
- 业务服务设置
- 分析和报告
Opsgenie配置
- 团队和用户管理
- 升级策略创建
- 排班和轮换设置
- 集成配置
- 警报策略和路由
- 通知规则
事件生命周期
- 事件创建和分类
- 优先级和严重性分类
- 状态页面更新
- 利益相关者沟通
- 事件时间线文档
- 解决和关闭
值班管理
- 排班创建和管理
- 轮换模式(每周、每日、自定义)
- 覆盖处理
- 覆盖缺口识别
- 交接程序
- 值班补偿跟踪
警报集成
- Prometheus Alertmanager集成
- Grafana警报集成
- CloudWatch警报路由
- 自定义Webhook配置
- 警报去重规则
- 抑制和维护窗口
事后分析支持
- 事后分析模板生成
- 时间线重建
- 行动项跟踪
- 无责事后分析促进
- 指标提取(MTTR、MTTD)
目标流程
incident-response.js- 事件响应框架oncall-setup.js- 值班轮换管理monitoring-setup.js- 警报路由集成
使用场景
此技能在以下流程需要时调用:
- 设置事件管理平台
- 配置值班排班和升级策略
- 将警报与事件平台集成
- 管理事件生命周期
- 生成事后分析文档
依赖项
- PagerDuty API访问(API密钥)
- Opsgenie API访问
- 监控系统集成凭据
输出格式
- PagerDuty服务/升级配置
- Opsgenie团队/排班配置
- 集成Webhook配置
- 事后分析模板
- 值班排班报告