名称: 创建运行手册 描述: 从系统分析生成操作运行手册。用于事件响应、操作程序、故障排除指南和紧急协议。 允许工具: 读取, 全局搜索, 搜索, 写入, 技能 参数提示: <主题> [–类型 事件|操作|故障排除|紧急] [–服务 <名称>]
创建操作运行手册
生成用于操作程序、事件响应或故障排除的运行手册。
过程
1. 解析参数
从用户输入中提取:
- 主题: 程序名称(必需) - 例如,“数据库故障转移”、“部署到生产环境”
- 类型:
事件,操作,故障排除,紧急(默认:操作) - 服务: 特定服务/系统(可选)
2. 分析上下文
基于主题和类型,收集相关信息:
对于事件运行手册:
- 哪些警报触发此运行手册?
- 常见原因是什么?
- 哪些指标指示问题?
- 解决步骤是什么?
对于操作运行手册:
- 程序是什么?
- 先决条件是什么?
- 验证步骤是什么?
- 可能出错的地方?
对于故障排除运行手册:
- 哪些症状指示问题?
- 需要哪些诊断步骤?
- 常见修复方法是什么?
- 何时升级?
对于紧急运行手册:
- 什么构成紧急情况?
- 需要哪些立即行动?
- 需要通知谁?
- 恢复过程是什么?
3. 加载技能并生成
- 加载
runbook-creation技能以获取模板 - 根据
类型参数选择适当模板 - 生成运行手册,包含:
- 全面的元数据
- 逐步程序
- 适用的决策树
- 故障排除部分
- 升级路径
4. 创建文件
确定文件位置:
优先级顺序:
1. docs/runbooks/{类型}/RB-{编号}-{简写}.md
2. docs/operations/runbooks/RB-{编号}-{简写}.md
3. runbooks/RB-{编号}-{简写}.md
编号:
- 查找现有运行手册,递增编号
- 或使用基于日期的:RB-2025-01-{序列}
5. 填充内容
根据类型生成内容部分:
所有类型包括:
- 元数据表(ID、类别、服务、所有者、日期)
- 概述(目的、何时使用、预期结果)
- 先决条件
- 带编号步骤的主要程序
- 故障排除部分
- 升级路径
类型特定部分:
| 类型 | 附加部分 |
|---|---|
| 事件 | 警报详情、影响评估、沟通模板 |
| 操作 | 回滚程序、验证检查表 |
| 故障排除 | 症状/原因矩阵、诊断命令 |
| 紧急 | 立即行动、通知列表、恢复步骤 |
输出内容
事件运行手册结构
# 事件运行手册: {主题}
| 属性 | 值 |
|----------|-------|
| **ID** | RB-INC-{编号} |
| **警报** | [警报名称] |
| **严重性** | [SEV1/2/3/4] |
| **服务** | {服务} |
| **所有者** | [团队] |
| **最后更新** | {日期} |
## 警报详情
[警报触发条件]
## 立即行动(前5分钟)
1. 确认警报
2. 评估影响
3. 初始沟通
## 诊断
[决策树和诊断步骤]
## 解决
[逐步修复程序]
## 验证
[如何确认解决]
## 沟通
[状态更新模板]
## 事件后
[清理和后续任务]
操作运行手册结构
# 运行手册: {主题}
| 属性 | 值 |
|----------|-------|
| **ID** | RB-OPS-{编号} |
| **类别** | 操作 |
| **服务** | {服务} |
| **所有者** | [团队] |
| **最后更新** | {日期} |
| **估计持续时间** | [时间] |
## 概述
[目的和何时使用]
## 先决条件
[访问、工具、所需知识]
## 程序
### 步骤1: [名称]
[详细指令与命令]
### 步骤2: [名称]
[详细指令]
## 验证
[如何确认成功]
## 回滚
[如何撤销如果需要]
## 故障排除
[常见问题和修复]
示例调用
/创建运行手册 "数据库故障转移"
→ 创建数据库故障转移操作运行手册
/创建运行手册 "高错误率" 类型=事件 服务="API网关"
→ 创建API网关错误率警报事件运行手册
/创建运行手册 "Pod崩溃循环" 类型=故障排除 服务="订单服务"
→ 创建订单服务Pod崩溃故障排除指南
/创建运行手册 "安全漏洞响应" 类型=紧急
→ 创建安全事件紧急运行手册
内容生成指南
生成运行手册内容时:
命令
- 包含实际测试过的命令
- 使用环境变量处理敏感数据
- 添加预期输出示例
决策点
- 使用清晰的流程图符号
- 覆盖所有分支(成功和失败)
- 包括“如有疑问”指导
时间
- 估计每个步骤的时间
- 注意SLA影响
- 包括“如果耗时过长”升级
沟通
- 提供复制粘贴模板
- 包括通知渠道
- 指定利益相关者期望
创建后指导
创建运行手册后:
- 填写具体内容 - 用实际命令/URL替换占位符
- 验证命令 - 在非生产环境中测试所有命令
- 与SME审查 - 请主题专家验证
- 测试执行 - 进行程序干运行
- 培训团队 - 确保操作员知晓存在
- 安排审查 - 设置季度审查日历提醒
质量标准
生成的运行手册必须:
- [ ] 具有唯一标识符
- [ ] 包含所有必需元数据
- [ ] 提供可操作的逐步指令
- [ ] 在每个主要操作后包括验证步骤
- [ ] 涵盖失败场景和回滚
- [ ] 定义升级路径和联系人
- [ ] 可在非生产环境中测试