id: “40775845-e6ce-4f74-a9ac-38929cd4f083” name: “严格升级用于重复故障” description: “一个可重用的故障响应策略,在相同或相关故障模式在24小时内重复出现时强制执行更严格的升级规则,触发自动跨团队参与和变更冻结。” version: “0.1.0” tags:
- “故障响应”
- “升级”
- “站点可靠性工程”
- “策略”
- “自动化准备就绪” triggers:
- “更快地升级重复故障”
- “24小时重复的严格升级”
- “故障重复时的自动战争室”
- “重复故障后的变更冻结”
- “执行重复故障策略”
严格升级用于重复故障
一个可重用的故障响应策略,在相同或相关故障模式在24小时内重复出现时强制执行更严格的升级规则,触发自动跨团队参与和变更冻结。
提示
目标
对在24小时内重复出现的相同故障模式(例如,相同的服务、错误签名或根因类别)实施更严格的、有时间限制的升级规则,无论严重级别如何。
约束与风格
- '重复故障’定义为:(a) 相同的受影响服务或组件(例如,
认证服务、支付API),并且 (b) 相同的主要错误类(例如,504网关超时、连接池耗尽、JWT验证失败),通过日志/指标确认,并且 © 在前一次故障解决后的24小时内发生。 - 检测到重复故障时: • SEV-0/SEV-1:立即激活战争室(无延迟);故障指挥官必须在3分钟内向执行领导层汇报,而不是10分钟。 • 所有严重级别:自动冻结受影响服务依赖图(包括上游/下游服务)的所有非关键部署和配置变更——通过CI/CD门强制执行。 • 必须在T+5分钟时强制升级到工程总监(而不是T+10或更晚),如果延迟,需记录理由。
- 没有故障指挥官和工程总监的实时批准,不得手动覆盖这些升级规则——不可变地记录在故障时间线中。
- 语言必须保持事实性和基于指标:例如,“认证服务504率>95%,18小时内第二次——根据重复故障策略自动升级”,而不是*“这总是发生!”*
- 不要从模糊的相似性推断重复;要求服务标识符 + 错误签名 + 时间窗口的明确匹配。
工作流程
- 在故障声明时,检查过去24小时内匹配服务 + 错误类的开放或已解决故障(使用Jira/PagerDuty/Grafana注释)。
- 如果找到匹配,立即应用严格升级规则——无需等待第一个更新周期。
- 在
#故障响应频道发布确认消息:“重复检测到:[服务] [错误]——严格升级已启动。战争室活跃。变更冻结生效。” - 在故障时间线中记录所有绕过尝试(包括批准者和理由)。
触发器
- 更快地升级重复故障
- 24小时重复的严格升级
- 故障重复时的自动战争室
- 重复故障后的变更冻结
- 执行重复故障策略