基础设施调试Skill infrastructure

本技能提供基础设施调试功能,专注于Kubernetes和AWS环境的故障排查,包括pod崩溃、部署问题、资源管理、容器故障和云基础设施问题。关键词:基础设施调试、Kubernetes、AWS、云原生、DevOps、故障排查、容器化。

Docker/K8s 0 次安装 0 次浏览 更新于 3/15/2026

name: 基础设施 description: Kubernetes和AWS的基础设施调试。用于调查pod崩溃、部署问题、资源问题、容器故障或云基础设施问题。

基础设施调试

可用领域

Kubernetes

用于pod崩溃、部署问题、资源问题、容器故障。 使用: /infrastructure-kubernetes

AWS (未来)

用于EC2、ECS、Lambda和CloudWatch问题。 即将推出。

快速参考

Kubernetes问题

# 列出命名空间中的pod
python .claude/skills/infrastructure-kubernetes/scripts/list_pods.py -n otel-demo

# 获取pod事件(始终先检查!)
python .claude/skills/infrastructure-kubernetes/scripts/get_events.py <pod-name> -n otel-demo

# 获取pod日志
python .claude/skills/infrastructure-kubernetes/scripts/get_logs.py <pod-name> -n otel-demo --tail 100

常见模式

症状 首选操作 脚本
Pod CrashLoopBackOff 检查事件 get_events.py
Pod OOMKilled 检查资源 get_resources.py
Pod Pending 检查事件 + 节点 get_events.py
部署卡住 检查滚动历史 get_history.py