name: knowledge-base description: 从Confluence搜索运行手册、文档和知识库文章。在寻找事故响应程序、服务文档、事后分析或故障排除指南时使用。 allowed-tools: Bash(python *)
知识库 - Confluence集成
认证
重要: 凭证由代理层自动注入。不要在环境变量中检查 CONFLUENCE_API_TOKEN - 它对您不可见。直接运行脚本;认证是透明处理的。
事故期间Confluence的重要性
在深入技术调查之前:
- 是否有运行手册? 查找此服务/警报的文档化程序
- 以前发生过吗? 搜索相关的事后分析
- 架构是什么? 查找服务文档
- 缓解措施是什么? 查找事故响应指南
可用脚本
所有脚本位于 .claude/skills/knowledge-base/scripts/
search_pages.py - 通用搜索
在所有Confluence页面中搜索任何主题。
python .claude/skills/knowledge-base/scripts/search_pages.py --query 搜索查询 [--space 空间键] [--limit N]
# 示例:
python .claude/skills/knowledge-base/scripts/search_pages.py --query "支付服务超时"
python .claude/skills/knowledge-base/scripts/search_pages.py --query "数据库连接" --space SRE
python .claude/skills/knowledge-base/scripts/search_pages.py --query "API错误" --limit 20
find_runbooks.py - 查找运行手册
查找特定服务或警报的运行手册。搜索标记为运行手册、剧本或SOP的页面。
python .claude/skills/knowledge-base/scripts/find_runbooks.py [--service 服务] [--alert 警报名称] [--space 空间键] [--limit N]
# 示例:
python .claude/skills/knowledge-base/scripts/find_runbooks.py --service payment
python .claude/skills/knowledge-base/scripts/find_runbooks.py --alert "HighErrorRate"
python .claude/skills/knowledge-base/scripts/find_runbooks.py --service checkout --space OPS
find_postmortems.py - 查找事后分析
查找事故事后分析以了解历史模式。
python .claude/skills/knowledge-base/scripts/find_postmortems.py [--service 服务] [--days N] [--space 空间键] [--limit N]
# 示例:
python .claude/skills/knowledge-base/scripts/find_postmortems.py --service payment
python .claude/skills/knowledge-base/scripts/find_postmortems.py --service payment --days 180
python .claude/skills/knowledge-base/scripts/find_postmortems.py --space SRE
get_page.py - 读取完整页面内容
获取特定Confluence页面的完整内容。
python .claude/skills/knowledge-base/scripts/get_page.py --page-id 页面ID
python .claude/skills/knowledge-base/scripts/get_page.py --title "页面标题" --space 空间键
# 示例:
python .claude/skills/knowledge-base/scripts/get_page.py --page-id 123456789
python .claude/skills/knowledge-base/scripts/get_page.py --title "支付服务运行手册" --space SRE
search_cql.py - 高级CQL搜索
使用Confluence查询语言进行带过滤器的高级搜索。
python .claude/skills/knowledge-base/scripts/search_cql.py --cql "CQL查询" [--limit N]
# 示例:
python .claude/skills/knowledge-base/scripts/search_cql.py --cql 'type = page AND label = "runbook"'
python .claude/skills/knowledge-base/scripts/search_cql.py --cql 'space = "SRE" AND lastModified >= now("-30d")'
python .claude/skills/knowledge-base/scripts/search_cql.py --cql 'text ~ "payment" AND label = "postmortem"'
常见CQL模式
| 模式 | 示例 | 目的 |
|---|---|---|
| 按标签查找 | type = page AND label = "runbook" |
具有特定标签的页面 |
| 空间过滤器 | space = "SRE" AND type = page |
特定空间中的页面 |
| 近期文档 | lastModified >= now("-30d") |
最近更新的页面 |
| 组合查询 | space = "OPS" AND label = "incident" AND text ~ "payment" |
复杂查询 |
| 事后分析 | label = "postmortem" OR title ~ "Post-mortem" |
事故回顾 |
常见工作流
1. 查找警报的运行手册
# 步骤1:按警报名称搜索运行手册
python find_runbooks.py --alert "HighErrorRate"
# 步骤2:如果找到,读取完整运行手册
python get_page.py --page-id 123456789
2. 调查服务问题
# 步骤1:查找服务文档
python search_pages.py --query "支付服务架构"
# 步骤2:检查运行手册
python find_runbooks.py --service payment
# 步骤3:查找历史事故
python find_postmortems.py --service payment --days 90
3. 从过去事故中学习
# 步骤1:查找类似的事后分析
python find_postmortems.py --service checkout --days 180
# 步骤2:读取特定事后分析
python get_page.py --page-id 987654321
# 步骤3:搜索相关问题
python search_cql.py --cql 'space = "SRE" AND text ~ "checkout timeout" AND lastModified >= now("-180d")'
4. 检查已知问题
# 搜索已知问题文档
python search_pages.py --query "已知问题" --space SRE
# 查找故障排除指南
python search_cql.py --cql 'title ~ "troubleshooting" OR label = "troubleshooting"'
快速命令参考
| 目标 | 命令 |
|---|---|
| 查找运行手册 | find_runbooks.py --service 服务 |
| 查找事后分析 | find_postmortems.py --service 服务 |
| 通用搜索 | search_pages.py --query "查询" |
| 读取完整页面 | get_page.py --page-id ID |
| 高级搜索 | search_cql.py --cql "CQL" |
最佳实践
何时使用知识库
- 调查开始时 - 在深入调查前检查现有运行手册
- 未知服务 - 查找架构文档以了解系统
- 重复警报 - 查找类似事故的事后分析
- 修复前 - 验证文档化程序是否存在
搜索策略
- 从广泛开始 - 先使用通用搜索(
search_pages.py) - 缩小范围 - 使用特定工具(
find_runbooks.py、find_postmortems.py) - 读取细节 - 仅在需要时获取完整页面内容
- 检查时效性 - 查找最近的事后分析以发现模式
要查找的标签
SRE/Ops团队中常见的Confluence标签:
runbook、playbook、sop- 操作程序postmortem、post-mortem、incident-review- 事故分析architecture、design-doc- 系统设计troubleshooting、debugging- 诊断指南
要避免的反模式
- ❌ 先读取完整页面 - 先搜索/查找,然后读取细节
- ❌ 忽略运行手册 - 在手动调查前检查知识库
- ❌ 不从历史中学习 - 事后分析防止重复错误
- ❌ 搜索时不使用空间过滤器 - 可能时使用
--space缩小结果
与其他技能的集成
将知识库与其他调查工具结合:
# 1. 查找运行手册
python find_runbooks.py --alert "HighMemoryUsage"
# 2. 遵循运行手册指令,例如检查Pod资源
python .claude/skills/infrastructure/kubernetes/scripts/describe_pod.py payment-xxx -n otel-demo
# 3. 记录发现以备将来事后分析
# (手动步骤 - 事故解决后创建事后分析页面)
有效搜索技巧
- 使用服务名称 - 在查询中包含服务名称
- 检查多个空间 - 尝试SRE、OPS、Engineering空间
- 寻找模式 - 事后分析揭示重复问题
- 验证新鲜度 - 最近的文档更准确
- 跟随链接 - 运行手册通常链接到相关文档