Kubernetes补救操作Skill remediation

此技能用于在Kubernetes集群中执行安全的补救操作,包括Pod重启、部署扩展和回滚,通过dry-run确保操作安全,适用于故障诊断、恢复和运维管理。关键词:Kubernetes, 补救操作, 安全, dry-run, Pod重启, 部署扩展, 回滚, DevOps, 云原生。

Docker/K8s 0 次安装 0 次浏览 更新于 3/15/2026

name: remediation description: Kubernetes的安全补救操作。用于提议或执行Pod重启、部署扩展或回滚。始终先使用dry-run。

补救操作

安全原则

  1. 始终先进行dry-run - 所有脚本都支持--dry-run标志
  2. 执行前确认 - 显示将会发生什么,请求确认
  3. 记录操作 - 记录所做操作及原因
  4. 制定回滚计划 - 知道如何撤销操作

可用脚本

所有脚本位于.claude/skills/remediation/scripts/

restart_pod.py - 通过删除重启Pod

# Dry run(显示将会发生什么)
python .claude/skills/remediation/scripts/restart_pod.py <pod-name> -n <namespace> --dry-run

# 执行
python .claude/skills/remediation/scripts/restart_pod.py <pod-name> -n <namespace>

scale_deployment.py - 扩展部署

# Dry run
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas N --dry-run

# 执行
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas N

rollback_deployment.py - 回滚到先前版本

# Dry run(显示当前和目标版本)
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace> --dry-run

# 执行
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace>

补救工作流

  1. 先诊断 - 使用k8s-debugger理解问题
  2. 提议操作 - 陈述计划做什么及原因
  3. Dry run - 显示将会发生什么
  4. 获取确认 - 请求用户确认
  5. 执行 - 运行操作
  6. 验证 - 检查问题是否解决

常见补救场景

Pod卡在CrashLoopBackOff

# 1. 检查事件
python .claude/skills/infrastructure/kubernetes/scripts/get_events.py <pod> -n <namespace>

# 2. 如果可通过重启修复,先dry-run
python .claude/skills/remediation/scripts/restart_pod.py <pod> -n <namespace> --dry-run

# 3. 执行重启
python .claude/skills/remediation/scripts/restart_pod.py <pod> -n <namespace>

部署卡在错误镜像

# 1. 检查历史
python .claude/skills/infrastructure/kubernetes/scripts/get_history.py <deployment> -n <namespace>

# 2. Dry-run回滚
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace> --dry-run

# 3. 执行回滚
python .claude/skills/remediation/scripts/rollback_deployment.py <deployment> -n <namespace>

服务高负载

# 1. 检查当前状态
python .claude/skills/infrastructure/kubernetes/scripts/describe_deployment.py <deployment> -n <namespace>

# 2. Dry-run扩展
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas 5 --dry-run

# 3. 执行扩展
python .claude/skills/remediation/scripts/scale_deployment.py <deployment> -n <namespace> --replicas 5

输出格式

当提议补救时,使用此结构:

## 提议的补救

**操作**: [例如,重启Pod、扩展部署、回滚]
**目标**: [资源名称和命名空间]
**原因**: [为什么此操作会帮助]
**风险**: [潜在副作用]

### Dry Run输出
[来自--dry-run的输出]

### 需要确认
请确认您想继续此操作。