创建运行手册Skill create-runbook

这个技能用于自动化生成运行手册,支持事件响应、操作流程、故障排除和紧急协议。关键词包括运行手册创建、DevOps自动化、运维管理、事件响应指南、自动化工具。

DevOps 0 次安装 0 次浏览 更新于 3/11/2026

名称: 创建运行手册 描述: 从系统分析生成操作运行手册。用于事件响应、操作程序、故障排除指南和紧急协议。 允许工具: 读取, 全局搜索, 搜索, 写入, 技能 参数提示: <主题> [–类型 事件|操作|故障排除|紧急] [–服务 <名称>]

创建操作运行手册

生成用于操作程序、事件响应或故障排除的运行手册。

过程

1. 解析参数

从用户输入中提取:

  • 主题: 程序名称(必需) - 例如,“数据库故障转移”、“部署到生产环境”
  • 类型: 事件, 操作, 故障排除, 紧急(默认:操作
  • 服务: 特定服务/系统(可选)

2. 分析上下文

基于主题和类型,收集相关信息:

对于事件运行手册:

  • 哪些警报触发此运行手册?
  • 常见原因是什么?
  • 哪些指标指示问题?
  • 解决步骤是什么?

对于操作运行手册:

  • 程序是什么?
  • 先决条件是什么?
  • 验证步骤是什么?
  • 可能出错的地方?

对于故障排除运行手册:

  • 哪些症状指示问题?
  • 需要哪些诊断步骤?
  • 常见修复方法是什么?
  • 何时升级?

对于紧急运行手册:

  • 什么构成紧急情况?
  • 需要哪些立即行动?
  • 需要通知谁?
  • 恢复过程是什么?

3. 加载技能并生成

  1. 加载 runbook-creation 技能以获取模板
  2. 根据 类型 参数选择适当模板
  3. 生成运行手册,包含:
    • 全面的元数据
    • 逐步程序
    • 适用的决策树
    • 故障排除部分
    • 升级路径

4. 创建文件

确定文件位置:

优先级顺序:
1. docs/runbooks/{类型}/RB-{编号}-{简写}.md
2. docs/operations/runbooks/RB-{编号}-{简写}.md
3. runbooks/RB-{编号}-{简写}.md

编号:

  • 查找现有运行手册,递增编号
  • 或使用基于日期的:RB-2025-01-{序列}

5. 填充内容

根据类型生成内容部分:

所有类型包括:

  • 元数据表(ID、类别、服务、所有者、日期)
  • 概述(目的、何时使用、预期结果)
  • 先决条件
  • 带编号步骤的主要程序
  • 故障排除部分
  • 升级路径

类型特定部分:

类型 附加部分
事件 警报详情、影响评估、沟通模板
操作 回滚程序、验证检查表
故障排除 症状/原因矩阵、诊断命令
紧急 立即行动、通知列表、恢复步骤

输出内容

事件运行手册结构

# 事件运行手册: {主题}

| 属性 | 值 |
|----------|-------|
| **ID** | RB-INC-{编号} |
| **警报** | [警报名称] |
| **严重性** | [SEV1/2/3/4] |
| **服务** | {服务} |
| **所有者** | [团队] |
| **最后更新** | {日期} |

## 警报详情
[警报触发条件]

## 立即行动(前5分钟)
1. 确认警报
2. 评估影响
3. 初始沟通

## 诊断
[决策树和诊断步骤]

## 解决
[逐步修复程序]

## 验证
[如何确认解决]

## 沟通
[状态更新模板]

## 事件后
[清理和后续任务]

操作运行手册结构

# 运行手册: {主题}

| 属性 | 值 |
|----------|-------|
| **ID** | RB-OPS-{编号} |
| **类别** | 操作 |
| **服务** | {服务} |
| **所有者** | [团队] |
| **最后更新** | {日期} |
| **估计持续时间** | [时间] |

## 概述
[目的和何时使用]

## 先决条件
[访问、工具、所需知识]

## 程序

### 步骤1: [名称]
[详细指令与命令]

### 步骤2: [名称]
[详细指令]

## 验证
[如何确认成功]

## 回滚
[如何撤销如果需要]

## 故障排除
[常见问题和修复]

示例调用

/创建运行手册 "数据库故障转移"
→ 创建数据库故障转移操作运行手册

/创建运行手册 "高错误率" 类型=事件 服务="API网关"
→ 创建API网关错误率警报事件运行手册

/创建运行手册 "Pod崩溃循环" 类型=故障排除 服务="订单服务"
→ 创建订单服务Pod崩溃故障排除指南

/创建运行手册 "安全漏洞响应" 类型=紧急
→ 创建安全事件紧急运行手册

内容生成指南

生成运行手册内容时:

命令

  • 包含实际测试过的命令
  • 使用环境变量处理敏感数据
  • 添加预期输出示例

决策点

  • 使用清晰的流程图符号
  • 覆盖所有分支(成功和失败)
  • 包括“如有疑问”指导

时间

  • 估计每个步骤的时间
  • 注意SLA影响
  • 包括“如果耗时过长”升级

沟通

  • 提供复制粘贴模板
  • 包括通知渠道
  • 指定利益相关者期望

创建后指导

创建运行手册后:

  1. 填写具体内容 - 用实际命令/URL替换占位符
  2. 验证命令 - 在非生产环境中测试所有命令
  3. 与SME审查 - 请主题专家验证
  4. 测试执行 - 进行程序干运行
  5. 培训团队 - 确保操作员知晓存在
  6. 安排审查 - 设置季度审查日历提醒

质量标准

生成的运行手册必须:

  • [ ] 具有唯一标识符
  • [ ] 包含所有必需元数据
  • [ ] 提供可操作的逐步指令
  • [ ] 在每个主要操作后包括验证步骤
  • [ ] 涵盖失败场景和回滚
  • [ ] 定义升级路径和联系人
  • [ ] 可在非生产环境中测试