名称: ops-devops-platform 描述: “生产级DevOps和平台工程模式:Kubernetes、Terraform、容器、GitOps、CI/CD、可观察性、事件响应、安全加固和云原生操作(AWS、GCP、Azure、Kafka)。”
DevOps工程 — 快速参考
这项技能为团队提供了可操作的模板、清单和模式,用于构建自助服务平台、使用GitOps自动化基础设施、通过DevSecOps安全部署、扩展Kubernetes、通过SRE实践确保可靠性以及使用强大的可观察性操作生产系统。
现代基线(2026年):IaC(Terraform/OpenTofu/Pulumi)、GitOps(Argo CD/Flux)、Kubernetes(遵循上游支持的版本)、OpenTelemetry + Prometheus/Grafana、供应链安全(SBOM + 签名 + 来源证明)、策略即代码(OPA/Gatekeeper或Kyverno)以及eBPF驱动的网络/安全/可观察性(例如,Cilium + Tetragon)。
快速参考
| 任务 | 工具/框架 | 命令 | 何时使用 |
|---|---|---|---|
| 基础设施即代码 | Terraform / OpenTofu | terraform plan && terraform apply |
声明式配置云资源 |
| GitOps部署 | Argo CD / Flux | argocd app sync myapp |
持续协调、声明式部署 |
| 容器构建 | Docker Engine | docker build -t app:v1 . |
打包应用程序及其依赖项 |
| Kubernetes部署 | kubectl / Helm (Kubernetes) | kubectl apply -f deploy.yaml / helm upgrade app ./chart |
部署到K8s集群、管理发布 |
| CI/CD管道 | GitHub Actions | 在.github/workflows/ci.yml中定义工作流 |
自动化测试、构建、部署 |
| 安全扫描 | Trivy / Falco / Tetragon | trivy image myapp:latest |
漏洞扫描、运行时安全、eBPF执行 |
| 监控与告警 | Prometheus + Grafana | 配置ServiceMonitor和AlertManager | 可观察性、SLO跟踪、事件告警 |
| 负载测试 | k6 / Locust | k6 run load-test.js |
性能验证、容量规划 |
| 事件响应 | PagerDuty / Opsgenie | 配置升级策略 | 值班管理、自动化升级 |
| 平台工程 | Backstage / Port | 部署内部开发者门户 | 自助服务基础设施、黄金路径 |
决策树:选择DevOps方法
你需要完成什么?
├─ 基础设施配置?
│ ├─ 云无关 → Terraform或OpenTofu(OSS分支)
│ ├─ 编程优先 → Pulumi(TypeScript/Python/Go)
│ ├─ AWS特定 → CloudFormation或Terraform/OpenTofu
│ ├─ GCP特定 → Deployment Manager或Terraform/OpenTofu
│ └─ Azure特定 → ARM/Bicep或Terraform/OpenTofu
│
├─ 应用程序部署?
│ ├─ Kubernetes集群?
│ │ ├─ 简单部署 → kubectl apply -f manifests/
│ │ ├─ 复杂应用 → Helm图表
│ │ └─ GitOps工作流 → ArgoCD或FluxCD
│ └─ 无服务器?
│ ├─ AWS → Lambda + SAM/Serverless Framework
│ ├─ GCP → Cloud Functions
│ └─ Azure → Azure Functions
│
├─ CI/CD管道设置?
│ ├─ GitHub基础 → GitHub Actions (template-github-actions.md)
│ ├─ GitLab基础 → GitLab CI
│ ├─ 企业 → Jenkins或Tekton
│ └─ 安全优先 → 添加SAST/DAST/SCA扫描 (template-ci-cd.md)
│
├─ 可观察性与监控?
│ ├─ 指标 → Prometheus + Grafana
│ ├─ 分布式追踪 → Jaeger或OpenTelemetry
│ ├─ 日志 → Loki或ELK堆栈
│ ├─ eBPF基础 → Cilium + Hubble(无sidecar)
│ └─ 统一平台 → Datadog或New Relic
│
├─ 事件管理?
│ ├─ 值班轮换 → PagerDuty或Opsgenie
│ ├─ 事后分析 → template-postmortem.md
│ └─ 通信 → template-incident-comm.md
│
├─ 平台工程?
│ ├─ 自助服务 → Backstage或Port(内部开发者门户)
│ ├─ 策略执行 → OPA/Gatekeeper
│ └─ 黄金路径 → 模板存储库 + 自动化
│
└─ 安全加固?
├─ 容器扫描 → Trivy或Grype
├─ 运行时安全 → Falco或Sysdig
├─ 密钥管理 → HashiCorp Vault或云原生KMS
└─ 合规 → CIS基准、template-security-hardening.md
何时使用此技能
当用户请求时,Claude应调用此技能:
- 平台工程模式(自助服务开发者平台、内部工具)
- GitOps工作流(ArgoCD、FluxCD、声明式基础设施管理)
- 基础设施即代码模式(Terraform、K8s清单、策略即代码)
- 带有DevSecOps的CI/CD管道(GitHub Actions、安全扫描、SAST/DAST/SCA)
- SRE事件管理、升级和事后分析模板
- eBPF基础的可观察性(Cilium、Hubble、内核级洞察、OpenTelemetry)
- Kubernetes操作模式(第2天操作、资源管理、工作负载放置)
- 云原生监控(Prometheus、Grafana、统一可观察性平台)
- 团队工作流、通信、交接指南和运行手册
资源(最佳实践指南)
按领域的操作最佳实践:
- DevOps/SRE操作:references/devops-best-practices.md - 安全基础设施变更、部署和事件响应的核心模式
- 平台工程:references/platform-engineering-patterns.md - 自助服务平台、黄金路径、内部开发者门户、策略即代码
- GitOps工作流:references/gitops-workflows.md - 持续协调、多环境推广、ArgoCD/FluxCD模式、渐进式交付
- SRE事件管理:references/sre-incident-management.md - 严重性分类、升级流程、无责备事后分析、告警关联和运行手册
- 操作标准:references/operational-patterns.md - 平台工程蓝图、CI/CD安全性、SLO和可靠性演练
每个指南包括:
- 完整性和安全检查清单
- 常见反模式及修复措施
- 安全推出、回滚和验证的逐步模式
- 决策矩阵(例如,部署、升级、监控策略)
- 现实世界示例和边缘案例处理
模板(可直接复制粘贴)
按技术栈组织的生产模板:
AWS云
- assets/aws/template-aws-ops.md - AWS服务操作和最佳实践
- assets/aws/template-aws-terraform.md - AWS基础设施的Terraform模块
- assets/aws/template-cost-optimization.md - AWS成本优化策略
GCP云
- assets/gcp/template-gcp-ops.md - GCP服务操作
- assets/gcp/template-gcp-terraform.md - GCP的Terraform模块
Azure云
- assets/azure/template-azure-ops.md - Azure服务操作
Kubernetes
- assets/kubernetes/template-kubernetes-ops.md - 日常K8s操作
- assets/kubernetes/template-ha-dr.md - 高可用性和灾难恢复
- assets/kubernetes/template-platform-api.md - 平台API模式
- assets/kubernetes/template-k8s-deploy.yaml - 部署清单
Docker
- assets/docker/template-docker-ops.md - 容器构建、安全和操作
Kafka
- assets/kafka/template-kafka-ops.md - Kafka集群操作和流处理
Terraform & IaC
- assets/terraform-iac/template-iac-terraform.md - 基础设施即代码模式
- assets/terraform-iac/template-module.md - 可重用Terraform模块
- assets/terraform-iac/template-env-promotion.md - 环境推广策略
CI/CD管道
- assets/cicd-pipelines/template-ci-cd.md - 通用CI/CD模式
- assets/cicd-pipelines/template-github-actions.md - GitHub Actions工作流
- assets/cicd-pipelines/template-gitops.md - GitOps部署模式
- assets/cicd-pipelines/template-release-safety.md - 安全发布实践
监控与可观察性
- assets/monitoring-observability/template-slo.md - 服务级别目标
- assets/monitoring-observability/template-alert-rules.md - 告警配置
- assets/monitoring-observability/template-observability-slo.md - 可观察性模式
- assets/monitoring-observability/template-loadtest-perf.md - 负载测试和性能
事件响应
- assets/incident-response/template-postmortem.md - 事件事后分析
- assets/incident-response/template-runbook-starter.md - 运行手册入门模板
- assets/incident-response/template-incident-comm.md - 事件通信
- assets/incident-response/template-incident-response.md - 事件响应流程
安全
导航
资源
- references/operational-patterns.md
- references/sre-incident-management.md
- references/devops-best-practices.md
- references/platform-engineering-patterns.md
- references/gitops-workflows.md
共享工具(中心化模式 — 提取,勿重复)
- …/software-clean-code-standard/utilities/config-validation.md — Zod 3.24+、密钥管理(Vault、1Password、Doppler)
- …/software-clean-code-standard/utilities/resilience-utilities.md — p-retry v6、断路器、OTel跨度
- …/software-clean-code-standard/utilities/logging-utilities.md — pino v9 + OpenTelemetry集成
- …/software-clean-code-standard/utilities/observability-utilities.md — OpenTelemetry SDK、追踪、指标
- …/software-clean-code-standard/utilities/testing-utilities.md — 测试工厂、固定装置、模拟
- …/software-clean-code-standard/references/clean-code-standard.md — 规范清洁代码规则(
CC-*)供引用
模板
- assets/incident-response/template-postmortem.md
- assets/incident-response/template-runbook-starter.md
- assets/incident-response/template-incident-comm.md
- assets/incident-response/template-incident-response.md
- assets/docker/template-docker-ops.md
- assets/security/template-security-hardening.md
- assets/azure/template-azure-ops.md
- assets/gcp/template-gcp-terraform.md
- assets/gcp/template-gcp-ops.md
- assets/cicd-pipelines/template-release-safety.md
- assets/cicd-pipelines/template-gitops.md
- assets/cicd-pipelines/template-ci-cd.md
- assets/cicd-pipelines/template-github-actions.md
- assets/kafka/template-kafka-ops.md
- assets/aws/template-aws-terraform.md
- assets/aws/template-aws-ops.md
- assets/aws/template-cost-optimization.md
- assets/monitoring-observability/template-slo.md
- assets/monitoring-observability/template-loadtest-perf.md
- assets/monitoring-observability/template-alert-rules.md
- assets/monitoring-observability/template-observability-slo.md
- assets/kubernetes/template-k8s-deploy.yaml
- assets/kubernetes/template-platform-api.md
- assets/kubernetes/template-kubernetes-ops.md
- assets/kubernetes/template-ha-dr.md
- assets/terraform-iac/template-env-promotion.md
- assets/terraform-iac/template-iac-terraform.md
- assets/terraform-iac/template-module.md
数据
- data/sources.json — 精选外部引用
相关技能
操作与基础设施:
- …/qa-resilience/SKILL.md — 弹性、混沌工程和故障处理模式
- …/data-sql-optimization/SKILL.md — 数据库调优、高可用性和迁移
- …/qa-observability/SKILL.md — 监控、追踪、性能分析和优化
- …/qa-debugging/SKILL.md — 生产调试、日志分析和根因调查
安全与合规:
- …/software-security-appsec/SKILL.md — 应用层安全模式和OWASP最佳实践
软件开发:
- …/software-backend/SKILL.md — 服务级设计和集成模式
- …/software-architecture-design/SKILL.md — 系统设计、可扩展性和架构模式
- …/dev-api-design/SKILL.md — RESTful API设计和版本控制
- …/git-workflow/SKILL.md — Git分支策略和CI/CD集成
可选:AI/自动化(相关技能):
- …/ai-mlops/SKILL.md — ML模型部署、监控和生命周期管理
成本治理与容量规划
assets/cost-governance/template-cost-governance.md — 云基础设施的生产成本控制。
关键部分
- 成本治理框架 — 标签策略、预算告警、异常检测
- 云成本优化 — 正确规模、预留容量、存储分层
- Kubernetes成本控制 — 资源请求/限制、配额、自动扩缩器配置
- 容量规划 — 利用率基线、增长预测、扩缩触发器
- FinOps实践 — 月度评审议程、优化工作流
做 / 避免
好:做
- 创建资源时标记所有资源
- 在达到限制前设置预算告警
- 每月审查正确规模建议
- 对容错工作负载使用spot/preemptible实例
- 为所有pod设置Kubernetes资源请求
- 启用带有缩容的集群自动扩缩器
- 记录容量规划假设
- 每次事件后运行事后分析
坏:避免
- 部署无成本标签的资源
- 24/7运行开发资源
- 过度配置“以防万一”
- 忽略预留容量机会
- 禁用缩容以“避免中断”
- 告警疲劳(太多低优先级告警)
- 雪花基础设施(手动、未记录)
- “点击操作”漂移(IaC外的变更)
反模式
| 反模式 | 问题 | 修复 |
|---|---|---|
| 无标签 | 无法归因成本 | 在CI/CD中强制标签 |
| 开发24/7运行 | 70%浪费 | 计划性关机 |
| 过度配置 | 为未使用容量付费 | 每月正确规模 |
| 无预留 | 支付按需溢价 | 60-70%覆盖目标 |
| 告警疲劳 | 真实问题被忽略 | 基于SLO的告警、调整阈值 |
| 雪花基础设施 | 未记录、不可重现 | 一切在Terraform/IaC中 |
| 无事后分析 | 相同事件重复 | 每个SEV1/2事件的无责备事后分析 |
可选:AI/自动化(AIOps)
注:AI可辅助分析和分类,但基础设施/成本/事件决策需要人工批准和审计跟踪(尤其是任何破坏性或不可逆操作)。
AIOps能力(2026年)
自愈系统:
- AI驱动的异常检测,在故障发生前预测
- 自动修复流程,触发回滚或配置变更
- 智能测试选择和基于风险的变更评分在CI/CD中
- 因果图分析,即时识别根因
自动化操作:
- 未使用资源检测和通知
- 正确规模推荐生成
- 告警摘要和关联(减少90%+噪音)
- 运行手册步骤建议和自动执行
AI辅助分析
- 成本趋势预测和异常检测
- 跨服务的事件模式识别
- 事后分析主题提取
- 容量规划预测
平台工程 + AI
平台团队越来越多地将AI能力直接嵌入平台:
- 多代理编排,用于代码生成、安全验证、部署
- 跨团队扩展的智能默认值和护栏
有界声明
- AI建议在行动前需要验证
- 自动删除需要审批工作流
- 成本预测是估计,不是保证
- 运行手册建议需要SRE验证
- 自愈操作应有预定义策略和审计跟踪
操作深度探讨
查看references/operational-patterns.md获取:
- 平台工程蓝图和GitOps协调清单
- DevSecOps CI/CD门控、SLO/SLI手册和推出验证步骤
- 可观察性模式(eBPF)、事件噪音减少和可靠性演练
外部资源
查看data/sources.json获取按技术栈组织的精选资源:
- 云平台:AWS、GCP、Azure文档和最佳实践
- 容器编排:Kubernetes、Helm、Kustomize、Docker
- 基础设施即代码:Terraform、OpenTofu、Pulumi、CloudFormation、ARM模板
- CI/CD & GitOps:GitHub Actions、GitLab CI、Jenkins、ArgoCD、FluxCD
- 流处理:Apache Kafka、Confluent、Strimzi
- 监控:Prometheus、Grafana、Datadog、OpenTelemetry、Jaeger、Cilium/Hubble、Tetragon
- SRE:Google SRE书籍、事件响应模式
- 安全:OWASP DevSecOps、CIS基准、Trivy、Falco
- 工具:kubectl、k9s、stern、Cosign、Syft、Terragrunt
使用此技能作为安全、现代和生产级DevOps模式的中心。所有模板和模式都是操作性的—无理论或书籍摘要。
趋势感知协议
当用户询问关于DevOps、平台工程或云基础设施的推荐问题时,验证时间敏感细节(版本、弃用、许可、主要发布)与主要来源。
触发条件
- “什么是最佳工具用于[Kubernetes/IaC/CI-CD/监控]?”
- “我应该用什么进行[容器编排/GitOps/可观察性]?”
- “DevOps/平台工程的最新进展是什么?”
- “当前最佳实践用于[Terraform/ArgoCD/Prometheus]?”
- “[工具/方法]在2026年仍然相关吗?”
- “[Kubernetes] vs [替代方案]?”或“[ArgoCD] vs [FluxCD]?”
- “最佳云提供商用于[用例]?”
- “我应该使用什么编排/监控工具?”
最低验证(优先顺序)
- 检查data/sources.json中链接的官方文档和发布说明,针对您推荐的具体工具。
- 如果互联网可用,从这些发布页面确认最近发布、突破性变更和弃用。
- 如果互联网不可用,说明版本可能已变更,并关注稳定选择标准(操作适合度、生态系统、成熟度、团队技能、合规性)。
报告内容
搜索后提供:
- 当前情况:现在流行什么工具/方法(不是6个月前)
- 新兴趋势:获得关注的新工具、模式或实践
- 弃用/衰退:失去相关性或支持的工具/方法
- 推荐:基于新数据,不仅是静态知识
示例主题(用新搜索验证)
- Kubernetes版本和生态系统工具(1.33+、Cilium、Gateway API)
- 基础设施即代码(Terraform、OpenTofu、Pulumi、CDK)
- GitOps平台(ArgoCD、FluxCD、Codefresh)
- 可观察性堆栈(OpenTelemetry、Grafana堆栈、Datadog)
- 平台工程工具(Backstage、Port、Kratix)
- CI/CD平台(GitHub Actions、GitLab CI、Dagger)
- 云原生安全(Falco、Trivy、策略引擎)