name: platform-engineering description: 设计和实施具有自服务能力、黄金路径和开发者体验优化的内部开发者平台(IDPs)。覆盖平台策略、IDP架构(Backstage、Port)、基础设施编排(Crossplane)、GitOps(Argo CD)和采用模式。在构建开发者平台、改进DevEx或建立平台团队时使用。
平台工程
目的
构建内部开发者平台(IDPs),提供自服务基础设施、减少认知负荷,并通过黄金路径和平台即产品思维加速开发者生产力。
平台工程代表了传统DevOps的演化,专注于创建产品质量的内部平台,将开发者视为客户。该学科解决了开发者生产力危机,其中工程师花费30-40%的时间在基础设施和工具上,而不是功能开发。
何时使用此技能
触发此技能时:
- 构建或改进内部开发者平台
- 设计开发者门户(Backstage、Port或商业IDP)
- 实施黄金路径和软件模板
- 建立或重组平台工程团队
- 测量和改进开发者体验(DevEx)
- 将IDP与基础设施、CI/CD、可观察性或安全工具集成
- 推动平台在整个工程组织中的采用
- 评估平台成熟度和识别能力差距
核心概念
平台即产品
以与面向客户产品相同的严谨性对待内部平台:
产品管理方法:
- 定义平台愿景、策略和路线图
- 识别开发者“客户”及其痛点
- 通过采用指标、满意度调查和业务影响衡量成功
- 基于反馈循环和使用分析迭代
- 平衡新能力与平台可靠性和支持
与传统DevOps的关键区别:
- DevOps关注交付管道;平台工程构建全面的开发者体验
- 平台团队作为产品团队运营(产品经理、UX设计师、工程师)
- 成功通过开发者生产力和满意度衡量,而不仅仅是基础设施指标
- 自服务是主要接口,而非票务队列
内部开发者平台(IDP)架构
三层架构:
1. 开发者门户(前端)
- 服务目录:服务清单,包含所有权、依赖关系和健康状态
- 软件模板:项目脚手架,内置最佳实践
- 文档中心:集中、可搜索、版本控制的文档
- 自服务工作流:环境配置、部署、访问请求
2. 平台编排(后端)
- 基础设施配置:多云资源管理
- 环境管理:开发、预发布、生产生命周期
- 部署自动化:基于GitOps的持续交付
- 配置管理:分离应用和基础设施关注点
3. 集成层(粘合层)
- CI/CD集成:管道可见性和触发
- 可观察性:门户中显示的指标、日志、追踪
- 安全:漏洞扫描、策略执行、秘密管理
- FinOps:成本可见性、预算、优化建议
有关详细架构模式和组件分解,请参阅references/idp-architecture.md。
黄金路径和脚手架
黄金路径原则: 提供包含80%用例的具有指导性的模板,同时为剩余20%提供逃生出口。
模板组件:
- 仓库结构和样板代码
- 基础设施即代码(Kubernetes清单、Terraform)
- CI/CD管道配置
- 可观察性仪表化(指标、日志、追踪)
- 安全配置(RBAC、网络策略、秘密)
- 文档模板(README、运行手册、架构图)
约束机制:
- 策略即代码执行(OPA、Kyverno)用于安全和合规
- 资源限制和配额以防止过度配置
- 必需的健康检查和可观察性仪表化
- 批准的基准镜像和依赖扫描
有关模板设计模式和示例,请参阅references/golden-paths.md。
开发者体验(DevEx)优化
认知负荷减少:
- 抽象基础设施复杂性而不隐藏必要细节
- 提供明智默认值,并带有清晰的覆盖机制
- 使用渐进式披露(常见情况简单,高级选项可用)
- 整合工具(单一开发者门户 vs. 15+个单独工具)
关键指标:
DORA指标:
- 部署频率(代码达到生产的频率)
- 变更前置时间(提交到生产持续时间)
- 平均恢复时间(MTTR,用于事件)
- 变更失败率(导致事件的部署百分比)
SPACE框架:
- 满意度:通过调查和NPS衡量开发者幸福感
- 性能:完成工作的吞吐量和效率
- 活动:代码提交、PR、部署(上下文,而非原始计数)
- 沟通:协作质量、可发现性
- 效率:最小化中断、减少繁琐工作
平台特定指标:
- 平台采用率(使用平台的团队百分比)
- 自服务率(无平台团队票务完成的操作)
- 入职时间(新开发者到首次生产部署)
- 模板使用(哪些黄金路径被采用)
- 支持票务量和解决时间
平台成熟度评估
使用5级成熟度模型评估当前平台能力:
级别0:临时性 - 手动配置,无标准化 级别1:基础自动化 - 部分IaC和CI/CD,有限自服务 级别2:铺平路径 - 黄金路径模板,早期门户,有限覆盖 级别3:自服务平台 - 全面门户,80%+自服务 级别4:产品驱动平台 - 数据驱动,产品团队结构,FinOps集成 级别5:AI增强平台 - AI辅助故障排除,预测优化
有关详细评估框架、差距分析和改进路线图,请参阅references/maturity-model.md。
决策框架
构建 vs. 购买IDP
选择开源(Backstage)时:
- 大型企业(1000+工程师)
- 有专用平台团队(5-10工程师)
- 需要深度定制
- 偏好开源生态系统
- 长期投资(3+年视野)
选择商业IDP(Port、Humanitec、Cortex)时:
- 中型组织(100-1000工程师)
- 需要更快的价值实现时间(3-6个月 vs. 6-12个月)
- 偏好带供应商支持的托管解决方案
- 平台工程资源有限(<5工程师)
- 标准用例(Web应用、微服务、CI/CD)
选择混合方法时:
- 需要灵活性和速度的大型组织
- 复杂基础设施需要编排后端
- 想要最佳门户 + 编排组件
- 愿意集成多个系统(例如,Backstage + Humanitec)
有关完整决策树、选择标准和ROI计算,请参阅references/decision-frameworks.md。
黄金路径设计:灵活性 vs. 标准化
控制频谱:
高标准化(受监管行业):
- 有限技术选择,强制模板
- 通过准入控制器(OPA、Kyverno)执行策略
- 逃生出口需要批准流程
平衡方法(大多数推荐):
- 推荐黄金路径(简单、文档齐全、支持)
- 允许替代方案,但需文档化
- 软执行(默认值 + 教育,非硬阻止)
- 明确偏差所有权(“偏离并拥有”)
高灵活性(创新组织):
- 黄金路径作为建议(非要求)
- 最小策略执行(仅关键安全)
- “构建它,运行它”所有权模型
有关选择正确平衡和执行策略的详细指南,请参阅references/decision-frameworks.md。
平台团队结构
集中式模型:
- 单一平台团队(5-20工程师)服务整个组织
- 最佳:中小型组织(100-500工程师)
联邦式模型:
- 中心团队(5-10工程师) + 嵌入式工程师(每业务单元1-2人)
- 最佳:大型组织(500-2000+工程师),多业务单元
中心辐射模型:
- 中心“枢纽”团队(3-5工程师) + “辐射”团队贡献插件
- 最佳:具有强开源文化的组织
有关团队规模、角色、职责和治理模型,请参阅references/decision-frameworks.md。
工具推荐
开发者门户
Backstage(开源,CNCF)
- 信任分数:78.7/100,8,876代码片段
- 软件目录、脚手架、TechDocs、插件生态系统
- 推荐:具有平台团队的企业
Port(商业)
- 托管平台,现代UI/UX,更快价值实现时间
- 推荐:中型组织(100-1000工程师)
Cortex(商业SaaS)
- 企业IDP,合规重点,工程标准执行
- 推荐:受监管行业
平台编排
Crossplane(开源,CNCF)
- 信任分数:67.4/100,多云通用控制平面
- Kubernetes原生声明式基础设施
- 推荐:多云抽象
Humanitec(商业)
- 平台编排后端,环境和部署管理
- 推荐:复杂基础设施,补充门户
Terraform Cloud(商业)
- 成熟IaC编排,工作空间管理
- 推荐:Terraform重型组织
GitOps持续交付
Argo CD(开源,CNCF) - 推荐
- 信任分数:91.8/100(最高)
- 声明式GitOps for Kubernetes,多集群管理
- 行业领先文档和社区
Flux(开源,CNCF)
- 工具包方法,Kubernetes原生
- 推荐:GitOps原生操作
有关详细工具比较、集成模式和选择标准,请参阅references/tool-recommendations.md。
实施指南
引导平台
基础阶段(第1-3个月):
- 定义平台愿景和组建平台团队(3-5成员)
- 采访开发者以识别痛点
- 设置开发者门户(Backstage或商业)
- 创建初始服务目录和首个黄金路径模板
试点阶段(第4-6个月):
- 选择2-3个试点团队进行白手套入职
- 基于反馈快速迭代
- 扩展到3-5个黄金路径模板
- 集成关键工具(CI/CD、监控、秘密)
扩展阶段(第7-12个月):
- 扩展到20-50%的工程团队
- 构建自服务文档和培训
- 建立平台SLOs和待命轮换
- 内部宣传(演示、冠军计划)
成熟阶段(第2年及以上):
- 整个组织80%+采用
- 平台团队作为产品团队运营
- 通过指标和反馈持续改进
- AI辅助能力,策略即代码扩展
有关详细实施步骤和引导代码,请参阅references/implementation-backstage.md。
创建黄金路径模板
模板设计流程:
- 识别最常见用例(Web应用、API、数据管道)
- 定义指导性选择(语言、框架、部署模式)
- 创建仓库结构和基础设施清单
- 配置带安全扫描的CI/CD管道
- 仪表化可观察性和文档使用
- 在广泛推出前与试点团队测试
模板类别:
- 全栈Web应用(后端API + 前端 + 数据库)
- 数据管道(带编排的ETL/ELT)
- 机器学习服务(模型服务、监控)
- 事件驱动微服务(消息代理集成)
- 计划作业(cron作业、批处理)
有关模板示例、脚手架代码和定制模式,请参阅references/golden-paths.md和examples/目录。
推动平台采用
宣传策略:
- 展示试点团队成功(内部博客文章、演示)
- 午餐学习会议介绍平台能力
- 内部冠军计划(高级用户帮助同行)
- 办公时间和Slack/Teams支持频道
激励对齐:
- 使平台比替代方案更容易(黄金路径是“铺平道路”)
- 与开发者已使用的工作流集成
- 提供即时价值(更快入职、更好可见性)
- 庆祝早期采用者,展示他们的成功
有关采用指标、跟踪仪表板和成功模式,请参阅references/maturity-model.md。
快速参考
平台工程检查清单
策略和愿景:
- [ ] 平台愿景和章程文档化
- [ ] 平台团队组建,角色清晰
- [ ] 通过采访识别开发者痛点
- [ ] 定义成功指标(DORA、SPACE、采用)
IDP基础:
- [ ] 开发者门户部署(Backstage、Port或商业)
- [ ] 服务目录建立(所有权、依赖关系、健康)
- [ ] 首个黄金路径模板创建和验证
- [ ] 文档中心对所有工程师可访问
自服务能力:
- [ ] 环境配置(开发、预发布、生产)
- [ ] 部署自动化(GitOps with Argo CD或Flux)
- [ ] CI/CD集成在门户中可见
- [ ] 每服务可观察性仪表板
安全和合规:
- [ ] 策略即代码执行(OPA、Kyverno)
- [ ] 秘密管理集成(Vault、云提供商)
- [ ] 管道中的漏洞扫描
- [ ] RBAC和访问控制配置
运营和支持:
- [ ] 平台SLOs定义和监控
- [ ] 支持频道建立(Slack、办公时间)
- [ ] 事件响应剧本文档化
- [ ] 反馈循环和使用分析到位
常见陷阱
过早构建过多:
- 从小开始(1个黄金路径,试点团队)并迭代
- 避免“煮沸海洋”综合征
忽略开发者反馈:
- 建立持续反馈循环,不仅仅是季度调查
过度标准化:
- 为高级用例提供清晰逃生出口
低估成功测量:
- 跟踪DORA指标、满意度调查、自服务率
将平台视为IT项目:
- 平台工程是产品开发,而非基础设施配置
- 需要产品经理、UX设计师、客户聚焦
与其他技能集成
相关技能:
kubernetes-operations: 集群操作、命名空间管理、RBAC、网络策略infrastructure-as-code: Terraform、Pulumi用于基础设施配置,与平台集成gitops-workflows: GitOps原则,Argo CD / Flux实施模式building-ci-pipelines: CI/CD管道设计集成到平台模板security-hardening: 通过黄金路径执行的安全最佳实践secret-management: 秘密管理集成到平台(Vault、云提供商)observability: 监控、日志、追踪集成到开发者门户
跨技能工作流:
平台引导:
- 使用
infrastructure-as-code配置平台基础设施 - 使用
kubernetes-operations配置集群 - 在平台基础设施上部署开发者门户(Backstage)
- 集成
gitops-workflows(Argo CD)用于持续交付 - 添加
observability集成(Prometheus、Grafana插件)
黄金路径创建:
- 基于常见用例设计模板
- 使用
building-ci-pipelines模式用于CI/CD配置 - 应用
security-hardening最佳实践(SAST、容器扫描) - 集成
secret-management(Vault、加密配置) - 添加
observability仪表化(指标、日志、追踪)
示例用例
用例1:电子商务平台团队
上下文: 300工程师的电子商务公司,微服务架构,手动配置导致瓶颈。
方法: 部署Backstage,创建3个黄金路径,集成Argo CD,试点3个团队,6个月内扩展到20个团队。
结果: 入职时间2天 → 2小时,部署频率2次/周 → 10次/天,开发者NPS +35。
用例2:金融服务平台
上下文: 1500工程师的银行,严格合规,遗留基础设施,碎片化工具。
方法: 采用Port(商业),高标准化黄金路径,OPA Gatekeeper,联邦模型,Terraform Cloud。
结果: 合规审计准备3周 → 3天,基础设施漂移事件减少90%,每服务成本归属。
用例3:初创公司平台
上下文: 50工程师的初创公司,快速增长,需要快速开发者入职。
方法: 轻量级Backstage(2工程师),2个黄金路径,GitHub Actions,PaaS基础设施(Fly.io),文档重点。
结果: 新工程师到生产1天(vs. 2周),100%自服务,2工程师支持50开发者。
有关代码示例和模板结构,请参阅examples/目录。