名称: ops-devops-platform 描述: “生产级DevOps和平台工程模式：Kubernetes、Terraform、容器、GitOps、CI/CD、可观察性、事件响应、安全加固和云原生操作（AWS、GCP、Azure、Kafka）。”

DevOps工程 — 快速参考

这项技能为团队提供了可操作的模板、清单和模式，用于构建自助服务平台、使用GitOps自动化基础设施、通过DevSecOps安全部署、扩展Kubernetes、通过SRE实践确保可靠性以及使用强大的可观察性操作生产系统。

现代基线（2026年）：IaC（Terraform/OpenTofu/Pulumi）、GitOps（Argo CD/Flux）、Kubernetes（遵循上游支持的版本）、OpenTelemetry + Prometheus/Grafana、供应链安全（SBOM + 签名 + 来源证明）、策略即代码（OPA/Gatekeeper或Kyverno）以及eBPF驱动的网络/安全/可观察性（例如，Cilium + Tetragon）。

快速参考

任务	工具/框架	命令	何时使用
基础设施即代码	Terraform / OpenTofu	`terraform plan && terraform apply`	声明式配置云资源
GitOps部署	Argo CD / Flux	`argocd app sync myapp`	持续协调、声明式部署
容器构建	Docker Engine	`docker build -t app:v1 .`	打包应用程序及其依赖项
Kubernetes部署	kubectl / Helm (Kubernetes)	`kubectl apply -f deploy.yaml` / `helm upgrade app ./chart`	部署到K8s集群、管理发布
CI/CD管道	GitHub Actions	在`.github/workflows/ci.yml`中定义工作流	自动化测试、构建、部署
安全扫描	Trivy / Falco / Tetragon	`trivy image myapp:latest`	漏洞扫描、运行时安全、eBPF执行
监控与告警	Prometheus + Grafana	配置ServiceMonitor和AlertManager	可观察性、SLO跟踪、事件告警
负载测试	k6 / Locust	`k6 run load-test.js`	性能验证、容量规划
事件响应	PagerDuty / Opsgenie	配置升级策略	值班管理、自动化升级
平台工程	Backstage / Port	部署内部开发者门户	自助服务基础设施、黄金路径

决策树：选择DevOps方法

你需要完成什么？
    ├─ 基础设施配置？
    │   ├─ 云无关 → Terraform或OpenTofu（OSS分支）
    │   ├─ 编程优先 → Pulumi（TypeScript/Python/Go）
    │   ├─ AWS特定 → CloudFormation或Terraform/OpenTofu
    │   ├─ GCP特定 → Deployment Manager或Terraform/OpenTofu
    │   └─ Azure特定 → ARM/Bicep或Terraform/OpenTofu
    │
    ├─ 应用程序部署？
    │   ├─ Kubernetes集群？
    │   │   ├─ 简单部署 → kubectl apply -f manifests/
    │   │   ├─ 复杂应用 → Helm图表
    │   │   └─ GitOps工作流 → ArgoCD或FluxCD
    │   └─ 无服务器？
    │       ├─ AWS → Lambda + SAM/Serverless Framework
    │       ├─ GCP → Cloud Functions
    │       └─ Azure → Azure Functions
    │
    ├─ CI/CD管道设置？
    │   ├─ GitHub基础 → GitHub Actions (template-github-actions.md)
    │   ├─ GitLab基础 → GitLab CI
    │   ├─ 企业 → Jenkins或Tekton
    │   └─ 安全优先 → 添加SAST/DAST/SCA扫描 (template-ci-cd.md)
    │
    ├─ 可观察性与监控？
    │   ├─ 指标 → Prometheus + Grafana
    │   ├─ 分布式追踪 → Jaeger或OpenTelemetry
    │   ├─ 日志 → Loki或ELK堆栈
    │   ├─ eBPF基础 → Cilium + Hubble（无sidecar）
    │   └─ 统一平台 → Datadog或New Relic
    │
    ├─ 事件管理？
    │   ├─ 值班轮换 → PagerDuty或Opsgenie
    │   ├─ 事后分析 → template-postmortem.md
    │   └─ 通信 → template-incident-comm.md
    │
    ├─ 平台工程？
    │   ├─ 自助服务 → Backstage或Port（内部开发者门户）
    │   ├─ 策略执行 → OPA/Gatekeeper
    │   └─ 黄金路径 → 模板存储库 + 自动化
    │
    └─ 安全加固？
        ├─ 容器扫描 → Trivy或Grype
        ├─ 运行时安全 → Falco或Sysdig
        ├─ 密钥管理 → HashiCorp Vault或云原生KMS
        └─ 合规 → CIS基准、template-security-hardening.md

何时使用此技能

当用户请求时，Claude应调用此技能：

平台工程模式（自助服务开发者平台、内部工具）
GitOps工作流（ArgoCD、FluxCD、声明式基础设施管理）
基础设施即代码模式（Terraform、K8s清单、策略即代码）
带有DevSecOps的CI/CD管道（GitHub Actions、安全扫描、SAST/DAST/SCA）
SRE事件管理、升级和事后分析模板
eBPF基础的可观察性（Cilium、Hubble、内核级洞察、OpenTelemetry）
Kubernetes操作模式（第2天操作、资源管理、工作负载放置）
云原生监控（Prometheus、Grafana、统一可观察性平台）
团队工作流、通信、交接指南和运行手册

资源（最佳实践指南）

按领域的操作最佳实践：

DevOps/SRE操作：references/devops-best-practices.md - 安全基础设施变更、部署和事件响应的核心模式
平台工程：references/platform-engineering-patterns.md - 自助服务平台、黄金路径、内部开发者门户、策略即代码
GitOps工作流：references/gitops-workflows.md - 持续协调、多环境推广、ArgoCD/FluxCD模式、渐进式交付
SRE事件管理：references/sre-incident-management.md - 严重性分类、升级流程、无责备事后分析、告警关联和运行手册
操作标准：references/operational-patterns.md - 平台工程蓝图、CI/CD安全性、SLO和可靠性演练

每个指南包括：

完整性和安全检查清单
常见反模式及修复措施
安全推出、回滚和验证的逐步模式
决策矩阵（例如，部署、升级、监控策略）
现实世界示例和边缘案例处理

模板（可直接复制粘贴）

按技术栈组织的生产模板：

模板

数据

data/sources.json — 精选外部引用

成本治理与容量规划

assets/cost-governance/template-cost-governance.md — 云基础设施的生产成本控制。

关键部分

成本治理框架 — 标签策略、预算告警、异常检测
云成本优化 — 正确规模、预留容量、存储分层
Kubernetes成本控制 — 资源请求/限制、配额、自动扩缩器配置
容量规划 — 利用率基线、增长预测、扩缩触发器
FinOps实践 — 月度评审议程、优化工作流

做 / 避免

好：做

创建资源时标记所有资源
在达到限制前设置预算告警
每月审查正确规模建议
对容错工作负载使用spot/preemptible实例
为所有pod设置Kubernetes资源请求
启用带有缩容的集群自动扩缩器
记录容量规划假设
每次事件后运行事后分析

坏：避免

部署无成本标签的资源
24/7运行开发资源
过度配置“以防万一”
忽略预留容量机会
禁用缩容以“避免中断”
告警疲劳（太多低优先级告警）
雪花基础设施（手动、未记录）
“点击操作”漂移（IaC外的变更）

反模式

反模式	问题	修复
无标签	无法归因成本	在CI/CD中强制标签
开发24/7运行	70%浪费	计划性关机
过度配置	为未使用容量付费	每月正确规模
无预留	支付按需溢价	60-70%覆盖目标
告警疲劳	真实问题被忽略	基于SLO的告警、调整阈值
雪花基础设施	未记录、不可重现	一切在Terraform/IaC中
无事后分析	相同事件重复	每个SEV1/2事件的无责备事后分析

可选：AI/自动化（AIOps）

注：AI可辅助分析和分类，但基础设施/成本/事件决策需要人工批准和审计跟踪（尤其是任何破坏性或不可逆操作）。

AIOps能力（2026年）

自愈系统：

AI驱动的异常检测，在故障发生前预测
自动修复流程，触发回滚或配置变更
智能测试选择和基于风险的变更评分在CI/CD中
因果图分析，即时识别根因

自动化操作：

未使用资源检测和通知
正确规模推荐生成
告警摘要和关联（减少90%+噪音）
运行手册步骤建议和自动执行

AI辅助分析

成本趋势预测和异常检测
跨服务的事件模式识别
事后分析主题提取
容量规划预测

平台工程 + AI

平台团队越来越多地将AI能力直接嵌入平台：

多代理编排，用于代码生成、安全验证、部署
跨团队扩展的智能默认值和护栏

有界声明

AI建议在行动前需要验证
自动删除需要审批工作流
成本预测是估计，不是保证
运行手册建议需要SRE验证
自愈操作应有预定义策略和审计跟踪

操作深度探讨

查看references/operational-patterns.md获取：

平台工程蓝图和GitOps协调清单
DevSecOps CI/CD门控、SLO/SLI手册和推出验证步骤
可观察性模式（eBPF）、事件噪音减少和可靠性演练

外部资源

查看data/sources.json获取按技术栈组织的精选资源：

云平台：AWS、GCP、Azure文档和最佳实践
容器编排：Kubernetes、Helm、Kustomize、Docker
基础设施即代码：Terraform、OpenTofu、Pulumi、CloudFormation、ARM模板
CI/CD & GitOps：GitHub Actions、GitLab CI、Jenkins、ArgoCD、FluxCD
流处理：Apache Kafka、Confluent、Strimzi
监控：Prometheus、Grafana、Datadog、OpenTelemetry、Jaeger、Cilium/Hubble、Tetragon
SRE：Google SRE书籍、事件响应模式
安全：OWASP DevSecOps、CIS基准、Trivy、Falco
工具：kubectl、k9s、stern、Cosign、Syft、Terragrunt

使用此技能作为安全、现代和生产级DevOps模式的中心。所有模板和模式都是操作性的—无理论或书籍摘要。

趋势感知协议

当用户询问关于DevOps、平台工程或云基础设施的推荐问题时，验证时间敏感细节（版本、弃用、许可、主要发布）与主要来源。

触发条件

“什么是最佳工具用于[Kubernetes/IaC/CI-CD/监控]？”
“我应该用什么进行[容器编排/GitOps/可观察性]？”
“DevOps/平台工程的最新进展是什么？”
“当前最佳实践用于[Terraform/ArgoCD/Prometheus]？”
“[工具/方法]在2026年仍然相关吗？”
“[Kubernetes] vs [替代方案]？”或“[ArgoCD] vs [FluxCD]？”
“最佳云提供商用于[用例]？”
“我应该使用什么编排/监控工具？”

最低验证（优先顺序）

检查data/sources.json中链接的官方文档和发布说明，针对您推荐的具体工具。
如果互联网可用，从这些发布页面确认最近发布、突破性变更和弃用。
如果互联网不可用，说明版本可能已变更，并关注稳定选择标准（操作适合度、生态系统、成熟度、团队技能、合规性）。

报告内容

搜索后提供：

当前情况：现在流行什么工具/方法（不是6个月前）
新兴趋势：获得关注的新工具、模式或实践
弃用/衰退：失去相关性或支持的工具/方法
推荐：基于新数据，不仅是静态知识

示例主题（用新搜索验证）

Kubernetes版本和生态系统工具（1.33+、Cilium、Gateway API）
基础设施即代码（Terraform、OpenTofu、Pulumi、CDK）
GitOps平台（ArgoCD、FluxCD、Codefresh）
可观察性堆栈（OpenTelemetry、Grafana堆栈、Datadog）
平台工程工具（Backstage、Port、Kratix）
CI/CD平台（GitHub Actions、GitLab CI、Dagger）
云原生安全（Falco、Trivy、策略引擎）

DevOps运维平台技能Skill ops-devops-platform

名称: ops-devops-platform 描述: “生产级DevOps和平台工程模式：Kubernetes、Terraform、容器、GitOps、CI/CD、可观察性、事件响应、安全加固和云原生操作（AWS、GCP、Azure、Kafka）。”

DevOps工程 — 快速参考

快速参考

决策树：选择DevOps方法

何时使用此技能

资源（最佳实践指南）

模板（可直接复制粘贴）

AWS云

GCP云

Azure云

Kubernetes

Docker

Kafka

Terraform & IaC

CI/CD管道

监控与可观察性

事件响应

安全

导航

相关技能