DevOps运维平台技能 ops-devops-platform

这个技能提供了生产级的DevOps和平台工程模式,包括Kubernetes、Terraform、GitOps、CI/CD、可观察性、安全加固等模板、清单和最佳实践,用于构建自助服务平台、自动化基础设施、安全部署、扩展容器编排、确保系统可靠性和管理云原生操作。关键词:DevOps、平台工程、Kubernetes、Terraform、GitOps、CI/CD、云原生、基础设施即代码、安全运维、事件响应。

DevOps 0 次安装 0 次浏览 更新于 3/7/2026

名称: ops-devops-platform 描述: “生产级DevOps和平台工程模式:Kubernetes、Terraform、容器、GitOps、CI/CD、可观察性、事件响应、安全加固和云原生操作(AWS、GCP、Azure、Kafka)。”

DevOps工程 — 快速参考

这项技能为团队提供了可操作的模板、清单和模式,用于构建自助服务平台、使用GitOps自动化基础设施、通过DevSecOps安全部署、扩展Kubernetes、通过SRE实践确保可靠性以及使用强大的可观察性操作生产系统。

现代基线(2026年):IaC(Terraform/OpenTofu/Pulumi)、GitOps(Argo CD/Flux)、Kubernetes(遵循上游支持的版本)、OpenTelemetry + Prometheus/Grafana、供应链安全(SBOM + 签名 + 来源证明)、策略即代码(OPA/Gatekeeper或Kyverno)以及eBPF驱动的网络/安全/可观察性(例如,Cilium + Tetragon)。


快速参考

任务 工具/框架 命令 何时使用
基础设施即代码 Terraform / OpenTofu terraform plan && terraform apply 声明式配置云资源
GitOps部署 Argo CD / Flux argocd app sync myapp 持续协调、声明式部署
容器构建 Docker Engine docker build -t app:v1 . 打包应用程序及其依赖项
Kubernetes部署 kubectl / Helm (Kubernetes) kubectl apply -f deploy.yaml / helm upgrade app ./chart 部署到K8s集群、管理发布
CI/CD管道 GitHub Actions .github/workflows/ci.yml中定义工作流 自动化测试、构建、部署
安全扫描 Trivy / Falco / Tetragon trivy image myapp:latest 漏洞扫描、运行时安全、eBPF执行
监控与告警 Prometheus + Grafana 配置ServiceMonitor和AlertManager 可观察性、SLO跟踪、事件告警
负载测试 k6 / Locust k6 run load-test.js 性能验证、容量规划
事件响应 PagerDuty / Opsgenie 配置升级策略 值班管理、自动化升级
平台工程 Backstage / Port 部署内部开发者门户 自助服务基础设施、黄金路径

决策树:选择DevOps方法

你需要完成什么?
    ├─ 基础设施配置?
    │   ├─ 云无关 → Terraform或OpenTofu(OSS分支)
    │   ├─ 编程优先 → Pulumi(TypeScript/Python/Go)
    │   ├─ AWS特定 → CloudFormation或Terraform/OpenTofu
    │   ├─ GCP特定 → Deployment Manager或Terraform/OpenTofu
    │   └─ Azure特定 → ARM/Bicep或Terraform/OpenTofu
    │
    ├─ 应用程序部署?
    │   ├─ Kubernetes集群?
    │   │   ├─ 简单部署 → kubectl apply -f manifests/
    │   │   ├─ 复杂应用 → Helm图表
    │   │   └─ GitOps工作流 → ArgoCD或FluxCD
    │   └─ 无服务器?
    │       ├─ AWS → Lambda + SAM/Serverless Framework
    │       ├─ GCP → Cloud Functions
    │       └─ Azure → Azure Functions
    │
    ├─ CI/CD管道设置?
    │   ├─ GitHub基础 → GitHub Actions (template-github-actions.md)
    │   ├─ GitLab基础 → GitLab CI
    │   ├─ 企业 → Jenkins或Tekton
    │   └─ 安全优先 → 添加SAST/DAST/SCA扫描 (template-ci-cd.md)
    │
    ├─ 可观察性与监控?
    │   ├─ 指标 → Prometheus + Grafana
    │   ├─ 分布式追踪 → Jaeger或OpenTelemetry
    │   ├─ 日志 → Loki或ELK堆栈
    │   ├─ eBPF基础 → Cilium + Hubble(无sidecar)
    │   └─ 统一平台 → Datadog或New Relic
    │
    ├─ 事件管理?
    │   ├─ 值班轮换 → PagerDuty或Opsgenie
    │   ├─ 事后分析 → template-postmortem.md
    │   └─ 通信 → template-incident-comm.md
    │
    ├─ 平台工程?
    │   ├─ 自助服务 → Backstage或Port(内部开发者门户)
    │   ├─ 策略执行 → OPA/Gatekeeper
    │   └─ 黄金路径 → 模板存储库 + 自动化
    │
    └─ 安全加固?
        ├─ 容器扫描 → Trivy或Grype
        ├─ 运行时安全 → Falco或Sysdig
        ├─ 密钥管理 → HashiCorp Vault或云原生KMS
        └─ 合规 → CIS基准、template-security-hardening.md

何时使用此技能

当用户请求时,Claude应调用此技能:

  • 平台工程模式(自助服务开发者平台、内部工具)
  • GitOps工作流(ArgoCD、FluxCD、声明式基础设施管理)
  • 基础设施即代码模式(Terraform、K8s清单、策略即代码)
  • 带有DevSecOps的CI/CD管道(GitHub Actions、安全扫描、SAST/DAST/SCA)
  • SRE事件管理、升级和事后分析模板
  • eBPF基础的可观察性(Cilium、Hubble、内核级洞察、OpenTelemetry)
  • Kubernetes操作模式(第2天操作、资源管理、工作负载放置)
  • 云原生监控(Prometheus、Grafana、统一可观察性平台)
  • 团队工作流、通信、交接指南和运行手册

资源(最佳实践指南)

按领域的操作最佳实践:

每个指南包括:

  • 完整性和安全检查清单
  • 常见反模式及修复措施
  • 安全推出、回滚和验证的逐步模式
  • 决策矩阵(例如,部署、升级、监控策略)
  • 现实世界示例和边缘案例处理

模板(可直接复制粘贴)

按技术栈组织的生产模板:

AWS云

GCP云

Azure云

Kubernetes

Docker

Kafka

Terraform & IaC

CI/CD管道

监控与可观察性

事件响应

安全


导航

资源

共享工具(中心化模式 — 提取,勿重复)

模板

数据


相关技能

操作与基础设施

安全与合规

软件开发

可选:AI/自动化(相关技能)


成本治理与容量规划

assets/cost-governance/template-cost-governance.md — 云基础设施的生产成本控制。

关键部分

  • 成本治理框架 — 标签策略、预算告警、异常检测
  • 云成本优化 — 正确规模、预留容量、存储分层
  • Kubernetes成本控制 — 资源请求/限制、配额、自动扩缩器配置
  • 容量规划 — 利用率基线、增长预测、扩缩触发器
  • FinOps实践 — 月度评审议程、优化工作流

做 / 避免

好:做

  • 创建资源时标记所有资源
  • 在达到限制前设置预算告警
  • 每月审查正确规模建议
  • 对容错工作负载使用spot/preemptible实例
  • 为所有pod设置Kubernetes资源请求
  • 启用带有缩容的集群自动扩缩器
  • 记录容量规划假设
  • 每次事件后运行事后分析

坏:避免

  • 部署无成本标签的资源
  • 24/7运行开发资源
  • 过度配置“以防万一”
  • 忽略预留容量机会
  • 禁用缩容以“避免中断”
  • 告警疲劳(太多低优先级告警)
  • 雪花基础设施(手动、未记录)
  • “点击操作”漂移(IaC外的变更)

反模式

反模式 问题 修复
无标签 无法归因成本 在CI/CD中强制标签
开发24/7运行 70%浪费 计划性关机
过度配置 为未使用容量付费 每月正确规模
无预留 支付按需溢价 60-70%覆盖目标
告警疲劳 真实问题被忽略 基于SLO的告警、调整阈值
雪花基础设施 未记录、不可重现 一切在Terraform/IaC中
无事后分析 相同事件重复 每个SEV1/2事件的无责备事后分析

可选:AI/自动化(AIOps)

注:AI可辅助分析和分类,但基础设施/成本/事件决策需要人工批准和审计跟踪(尤其是任何破坏性或不可逆操作)。

AIOps能力(2026年)

自愈系统

  • AI驱动的异常检测,在故障发生前预测
  • 自动修复流程,触发回滚或配置变更
  • 智能测试选择和基于风险的变更评分在CI/CD中
  • 因果图分析,即时识别根因

自动化操作

  • 未使用资源检测和通知
  • 正确规模推荐生成
  • 告警摘要和关联(减少90%+噪音)
  • 运行手册步骤建议和自动执行

AI辅助分析

  • 成本趋势预测和异常检测
  • 跨服务的事件模式识别
  • 事后分析主题提取
  • 容量规划预测

平台工程 + AI

平台团队越来越多地将AI能力直接嵌入平台:

  • 多代理编排,用于代码生成、安全验证、部署
  • 跨团队扩展的智能默认值和护栏

有界声明

  • AI建议在行动前需要验证
  • 自动删除需要审批工作流
  • 成本预测是估计,不是保证
  • 运行手册建议需要SRE验证
  • 自愈操作应有预定义策略和审计跟踪

操作深度探讨

查看references/operational-patterns.md获取:

  • 平台工程蓝图和GitOps协调清单
  • DevSecOps CI/CD门控、SLO/SLI手册和推出验证步骤
  • 可观察性模式(eBPF)、事件噪音减少和可靠性演练

外部资源

查看data/sources.json获取按技术栈组织的精选资源:

  • 云平台:AWS、GCP、Azure文档和最佳实践
  • 容器编排:Kubernetes、Helm、Kustomize、Docker
  • 基础设施即代码:Terraform、OpenTofu、Pulumi、CloudFormation、ARM模板
  • CI/CD & GitOps:GitHub Actions、GitLab CI、Jenkins、ArgoCD、FluxCD
  • 流处理:Apache Kafka、Confluent、Strimzi
  • 监控:Prometheus、Grafana、Datadog、OpenTelemetry、Jaeger、Cilium/Hubble、Tetragon
  • SRE:Google SRE书籍、事件响应模式
  • 安全:OWASP DevSecOps、CIS基准、Trivy、Falco
  • 工具:kubectl、k9s、stern、Cosign、Syft、Terragrunt

使用此技能作为安全、现代和生产级DevOps模式的中心。所有模板和模式都是操作性的—无理论或书籍摘要。


趋势感知协议

当用户询问关于DevOps、平台工程或云基础设施的推荐问题时,验证时间敏感细节(版本、弃用、许可、主要发布)与主要来源。

触发条件

  • “什么是最佳工具用于[Kubernetes/IaC/CI-CD/监控]?”
  • “我应该用什么进行[容器编排/GitOps/可观察性]?”
  • “DevOps/平台工程的最新进展是什么?”
  • “当前最佳实践用于[Terraform/ArgoCD/Prometheus]?”
  • “[工具/方法]在2026年仍然相关吗?”
  • “[Kubernetes] vs [替代方案]?”或“[ArgoCD] vs [FluxCD]?”
  • “最佳云提供商用于[用例]?”
  • “我应该使用什么编排/监控工具?”

最低验证(优先顺序)

  1. 检查data/sources.json中链接的官方文档和发布说明,针对您推荐的具体工具。
  2. 如果互联网可用,从这些发布页面确认最近发布、突破性变更和弃用。
  3. 如果互联网不可用,说明版本可能已变更,并关注稳定选择标准(操作适合度、生态系统、成熟度、团队技能、合规性)。

报告内容

搜索后提供:

  • 当前情况:现在流行什么工具/方法(不是6个月前)
  • 新兴趋势:获得关注的新工具、模式或实践
  • 弃用/衰退:失去相关性或支持的工具/方法
  • 推荐:基于新数据,不仅是静态知识

示例主题(用新搜索验证)

  • Kubernetes版本和生态系统工具(1.33+、Cilium、Gateway API)
  • 基础设施即代码(Terraform、OpenTofu、Pulumi、CDK)
  • GitOps平台(ArgoCD、FluxCD、Codefresh)
  • 可观察性堆栈(OpenTelemetry、Grafana堆栈、Datadog)
  • 平台工程工具(Backstage、Port、Kratix)
  • CI/CD平台(GitHub Actions、GitLab CI、Dagger)
  • 云原生安全(Falco、Trivy、策略引擎)