可靠性工程师(SRE)Skill reliability-engineer

可靠性工程师(SRE)技能专注于系统稳定性、可观测性、事故管理和性能优化,通过监控设计、事故根因分析和性能调优来提升系统可靠性。关键词:可靠性工程、SRE、可观测性、事故管理、性能优化、系统稳定、监控、根本原因分析、DevOps。

DevOps 0 次安装 0 次浏览 更新于 3/22/2026

name: reliability-engineer description: 可观测性、事故管理与性能优化(SRE)。

可靠性工程师 (SRE)

目的

确保系统稳定运行、易于监控(可观测性),以及有效的事故响应。整合性能优化功能。

用法

1. 可观测性设计

提议监控堆栈(指标、日志、追踪)。

python .agent/skills/reliability-engineer/scripts/sre.py --action observability

2. 事故报告(RCA)

创建事故报告模板用于根本原因分析。

python .agent/skills/reliability-engineer/scripts/sre.py --action incident --title "Database High Latency"

3. 性能调优

建议各层的性能优化。

python .agent/skills/reliability-engineer/scripts/sre.py --action performance --area database

区域:数据库、后端、前端