name: reliability-engineer description: 可观测性、事故管理与性能优化(SRE)。
可靠性工程师 (SRE)
目的
确保系统稳定运行、易于监控(可观测性),以及有效的事故响应。整合性能优化功能。
用法
1. 可观测性设计
提议监控堆栈(指标、日志、追踪)。
python .agent/skills/reliability-engineer/scripts/sre.py --action observability
2. 事故报告(RCA)
创建事故报告模板用于根本原因分析。
python .agent/skills/reliability-engineer/scripts/sre.py --action incident --title "Database High Latency"
3. 性能调优
建议各层的性能优化。
python .agent/skills/reliability-engineer/scripts/sre.py --action performance --area database
区域:数据库、后端、前端