name: remediation description: Kubernetes的安全补救操作。用于提议或执行Pod重启、部署扩展或回滚。始终先使用dry-run。
补救操作
安全原则
- 始终先进行dry-run - 所有脚本都支持
--dry-run标志 - 执行前确认 - 显示将会发生什么,请求确认
- 记录操作 - 记录所做操作及原因
- 制定回滚计划 - 知道如何撤销操作
可用脚本
所有脚本位于.claude/skills/remediation/scripts/
restart_pod.py - 通过删除重启Pod
# Dry run(显示将会发生什么)
python .claude/skills/remediation/scripts/restart_pod.py <pod-name> -n <namespace> --dry-run
# 执行
python .claude/skills/remediation/scripts/restart_pod.py <pod-name> -n <namespace>
scale_deployment.py - 扩展部署
# Dry run
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas N --dry-run
# 执行
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas N
rollback_deployment.py - 回滚到先前版本
# Dry run(显示当前和目标版本)
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace> --dry-run
# 执行
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace>
补救工作流
- 先诊断 - 使用k8s-debugger理解问题
- 提议操作 - 陈述计划做什么及原因
- Dry run - 显示将会发生什么
- 获取确认 - 请求用户确认
- 执行 - 运行操作
- 验证 - 检查问题是否解决
常见补救场景
Pod卡在CrashLoopBackOff
# 1. 检查事件
python .claude/skills/infrastructure/kubernetes/scripts/get_events.py <pod> -n <namespace>
# 2. 如果可通过重启修复,先dry-run
python .claude/skills/remediation/scripts/restart_pod.py <pod> -n <namespace> --dry-run
# 3. 执行重启
python .claude/skills/remediation/scripts/restart_pod.py <pod> -n <namespace>
部署卡在错误镜像
# 1. 检查历史
python .claude/skills/infrastructure/kubernetes/scripts/get_history.py <deployment> -n <namespace>
# 2. Dry-run回滚
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace> --dry-run
# 3. 执行回滚
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace>
服务高负载
# 1. 检查当前状态
python .claude/skills/infrastructure/kubernetes/scripts/describe_deployment.py <deployment> -n <namespace>
# 2. Dry-run扩展
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas 5 --dry-run
# 3. 执行扩展
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas 5
输出格式
当提议补救时,使用此结构:
## 提议的补救
**操作**: [例如,重启Pod、扩展部署、回滚]
**目标**: [资源名称和命名空间]
**原因**: [为什么此操作会帮助]
**风险**: [潜在副作用]
### Dry Run输出
[来自--dry-run的输出]
### 需要确认
请确认您想继续此操作。