name: 基础设施 description: Kubernetes和AWS的基础设施调试。用于调查pod崩溃、部署问题、资源问题、容器故障或云基础设施问题。
基础设施调试
可用领域
Kubernetes
用于pod崩溃、部署问题、资源问题、容器故障。
使用: /infrastructure-kubernetes
AWS (未来)
用于EC2、ECS、Lambda和CloudWatch问题。 即将推出。
快速参考
Kubernetes问题
# 列出命名空间中的pod
python .claude/skills/infrastructure-kubernetes/scripts/list_pods.py -n otel-demo
# 获取pod事件(始终先检查!)
python .claude/skills/infrastructure-kubernetes/scripts/get_events.py <pod-name> -n otel-demo
# 获取pod日志
python .claude/skills/infrastructure-kubernetes/scripts/get_logs.py <pod-name> -n otel-demo --tail 100
常见模式
| 症状 | 首选操作 | 脚本 |
|---|---|---|
| Pod CrashLoopBackOff | 检查事件 | get_events.py |
| Pod OOMKilled | 检查资源 | get_resources.py |
| Pod Pending | 检查事件 + 节点 | get_events.py |
| 部署卡住 | 检查滚动历史 | get_history.py |