name: rca-analysis description: 用于事件和问题的结构化根本原因分析 allowed-tools:
- Read
- Write
- Glob
- Grep
- Bash metadata: specialization: 客户体验 domain: 业务 category: 服务管理 id: SK-015
根本原因分析技能
概述
根本原因分析(RCA)技能提供了用于对事件和问题进行彻底根本原因调查的结构化方法和工具。此技能支持多种分析框架,包括5个为什么、鱼骨图/石川图以及故障树分析,以识别根本原因并推动永久性纠正措施。
能力
5个为什么分析
- 促进结构化的5个为什么提问
- 记录因果链进展
- 识别根本原因的停止标准
- 生成5个为什么分析报告
- 跟踪分支原因路径
- 验证根本原因识别
鱼骨图/石川图
- 生成鱼骨图结构
- 按类别(6M模型)组织原因
- 支持自定义类别定义
- 创建可视化图表输出(Mermaid,SVG)
- 促进头脑风暴会议
- 记录影响因素
故障树分析
- 构建故障树逻辑结构
- 定义与/或门关系
- 计算概率传播
- 识别最小割集
- 生成故障树可视化
- 支持定量风险分析
影响因素识别
- 分析多个原因类别
- 识别系统性原因与直接原因
- 记录环境因素
- 评估人为因素贡献
- 评估流程缺陷
- 识别技术故障
根本原因置信度评分
- 计算已识别原因的置信度水平
- 评估每个因素的证据强度
- 评估原因概率和影响
- 生成置信区间
- 按置信度对原因进行优先级排序
- 记录不确定性和假设
RCA文档生成
- 生成全面的RCA报告
- 创建执行摘要
- 记录事件时间线
- 包含证据和数据参考
- 提出纠正措施建议
- 生成经验教训文档
纠正措施跟踪
- 跟踪纠正措施实施
- 监控措施完成状态
- 验证修复的有效性
- 生成措施状态报告
- 将措施与根本原因关联
- 跟踪措施负责人和截止日期
使用
执行5个为什么分析
skill: rca-analysis
action: five-whys
parameters:
incident_id: "INC-2025-001"
problem_statement: "客户仪表板2小时无法加载"
analysis:
why_1:
question: "为什么仪表板无法加载?"
answer: "API网关返回503错误"
why_2:
question: "为什么API网关返回503?"
answer: "后端服务无响应"
why_3:
question: "为什么后端服务无响应?"
answer: "数据库连接池耗尽"
why_4:
question: "为什么连接池耗尽?"
answer: "一个慢查询长时间占用连接"
why_5:
question: "为什么存在慢查询?"
answer: "新添加的列缺少数据库索引"
root_cause: "缺少数据库索引导致慢查询,进而耗尽连接池"
生成鱼骨图
skill: rca-analysis
action: fishbone-diagram
parameters:
problem: "第四季度客户流失率高"
categories:
people:
- "CSM人员配备不足"
- "CSM人员流动率高"
- "缺乏主动外联培训"
process:
- "无早期预警系统"
- "QBR安排延迟"
- "仅被动响应式参与模式"
technology:
- "健康评分未捕捉使用量下降"
- "CRM数据质量问题"
- "无自动化告警"
measurement:
- "流失识别过晚"
- "NPS与流失率不相关"
environment:
- "经济下行压力"
- "竞争对手激进定价"
output_format: mermaid
执行故障树分析
skill: rca-analysis
action: fault-tree
parameters:
top_event: "服务完全中断"
tree:
gate: OR
events:
- name: "基础设施故障"
gate: AND
events:
- name: "主数据中心故障"
probability: 0.001
- name: "灾备切换失败"
probability: 0.01
- name: "应用故障"
gate: OR
events:
- name: "代码部署错误"
probability: 0.02
- name: "配置错误"
probability: 0.015
calculate:
- top_event_probability
- minimal_cut_sets
- critical_events
生成RCA报告
skill: rca-analysis
action: generate-report
parameters:
incident_id: "INC-2025-001"
report_type: comprehensive
include:
- executive_summary
- incident_timeline
- impact_assessment
- analysis_methodology
- root_causes
- contributing_factors
- corrective_actions
- lessons_learned
format: markdown
跟踪纠正措施
skill: rca-analysis
action: track-actions
parameters:
rca_id: "RCA-2025-001"
actions:
- id: "CA-001"
description: "添加缺失的数据库索引"
owner: "database-team"
due_date: "2025-01-20"
status: completed
verification: "查询性能从30秒提升至50毫秒"
- id: "CA-002"
description: "实施连接池监控"
owner: "sre-team"
due_date: "2025-01-25"
status: in_progress
流程集成
此技能与以下客户体验流程集成:
| 流程 | 集成点 |
|---|---|
| problem-management.js | 核心RCA方法,已知错误文档,永久性修复 |
| itil-incident-management.js | 事后审查,PIR文档,预防措施 |
| closed-loop-feedback.js | 客户投诉根本原因,系统性问题识别 |
分析框架
6M类别(制造业)
- 人力(人员)
- 方法(流程)
- 机器(技术)
- 材料
- 测量
- 环境
6S类别(服务业)
- 环境
- 供应商
- 系统
- 技能
- 安全
- 标准
依赖
- RCA模板和框架
- 分析方法指南
- 事件/问题数据访问权限
- 纠正措施跟踪系统
- 图表可视化库
- 用于模式识别的历史RCA数据库
最佳实践
- 快速启动:在证据新鲜且可用时开始RCA
- 无责文化:关注系统性而非个人问题
- 多视角:分析中纳入不同利益相关者
- 基于证据:用数据和日志支持结论
- 可执行输出:确保纠正措施具体且可衡量
- 跟进到底:跟踪措施完成并验证有效性
- 学习分享:记录经验教训以丰富组织知识
共享潜力
此技能是提取到共享库的强有力候选者,适用于:
- DevOps/SRE(事件事后分析)
- QA测试(缺陷分析)
- 软件架构(故障分析)
- 制造运营
- 医疗质量