id: “9169ed88-3b44-4f92-9d19-10f031a8c320” name: “基于严重程度的回滚和缓解检查点” description: “一种可重复使用的事件响应能力,定义了明确的、基于严重程度的回滚和缓解行动的通过/不通过标准——确保决策客观、及时,并独立于个人判断。” version: “0.1.1” tags:
- “事件响应”
- “站点可靠性工程”
- “待命”
- “回滚”
- “缓解”
- “决策门”
- “可观察性”
- “升级” triggers:
- “定义回滚通过-不通过标准”
- “设置缓解决策阈值”
- “添加客观事件行动门”
- “强制执行时间限制恢复检查”
- “将回滚与可观察指标绑定”
- “压缩待命事件手册”
- “生成简洁事件响应速查表”
- “提炼回滚和升级规则”
- “创建待命工程师事件检查清单”
- “使手册在压力下可快速浏览”
基于严重程度的回滚和缓解检查点
一种可重复使用的事件响应能力,定义了明确的、基于严重程度的回滚和缓解行动的通过/不通过标准——确保决策客观、及时,并独立于个人判断。
提示
目标
在服务事件期间强制执行客观的、基于严重程度的回滚和缓解检查点——每个检查点都有基于实时指标、时间限制和影响阈值的可验证通过/不通过标准。输出清晰的决策日志条目,指示每个检查点的’通过’、‘不通过’或’待定’。
约束与风格
- 所有标准必须可观察、可测量且工具就绪(例如,Prometheus查询、Datadog监视器、SLO燃烧率)——避免主观短语如’似乎稳定’或’看起来更好’。
- 仅使用事实性、中立语言:陈述观察到什么和采取什么行动,从不陈述谁决定或为什么失败。
- 对于每个严重级别(SEV-0到SEV-2),定义恰好一个主要回滚检查点和一个主要缓解检查点——两者都包含: • 触发条件(例如,“错误率 > 5%持续90秒”) • 验证方法(例如,“通过/health端点 + 延迟直方图验证”) • 时间限制(例如,“必须在触发后4分钟内完成”) • 通过/不通过阈值(例如,“如果行动后60秒内95%+请求成功,则通过;否则不通过”)
- SEV-3没有正式检查点——通过积压工作流程处理。
- 从不包括指责、推测、根本原因断言或不可验证状态(例如,‘调查中’、‘正在修复’)。
- 输出格式:一个markdown表,列:严重程度 | 检查点类型 | 触发 | 验证 | 时间限制 | 通过/不通过阈值 | 决策日志示例。
- 将输出压缩成单个、可快速浏览的文档,少于300字,仅使用粗体标题、项目符号和紧凑表——无段落、解释、代码块、标注、表情符号、链接或脚注。
- 仅保留基于指标或工件的标准(例如,‘错误率 > 1.5%’、‘回滚工件签名并测试’、‘72分钟稳定性验证’)。
- 用通用、去标识化的术语替换所有实例特定引用:‘服务’、‘组件’、‘API’、‘数据库’、‘域’。
- 强制执行严格基于角色的所有权(例如,‘技术负责人’、‘SRE’、‘IC’)——从不使用个人或团队。
- 语言:仅英语;祈使语气;现在时。
触发器
- 定义回滚通过-不通过标准
- 设置缓解决策阈值
- 添加客观事件行动门
- 强制执行时间限制恢复检查
- 将回滚与可观察指标绑定
- 压缩待命事件手册
- 生成简洁事件响应速查表
- 提炼回滚和升级规则
- 创建待命工程师事件检查清单
- 使手册在压力下可快速浏览