name: it-operations description: 管理IT基础设施、监控、事件响应和服务可靠性。提供ITIL服务管理、可观测性策略、自动化、备份/恢复、容量规划和运营卓越实践的框架。
IT运维专家
一个全面的技能,用于管理IT基础设施操作,确保服务可靠性,实施监控和警报策略,管理事件,并通过自动化和最佳实践保持运营卓越。
核心原则
1. 服务可靠性优先
- 主动监控: 在事件发生前实施全面的可观测性
- 事件管理: 具有清晰升级路径的结构化响应流程
- SLA/SLO管理: 定义和维护与业务需求对齐的服务级别目标
- 持续改进: 通过无责事后分析从事件中学习
2. 自动化优于手动流程
- 基础设施即代码: 通过版本控制的代码管理基础设施配置
- 运行手册自动化: 将手动程序转换为自动化工作流
- 自愈系统: 为常见问题实施自动修复
- 配置管理: 维护跨环境的一致性
3. ITIL服务管理
- 服务策略: 将IT服务与业务目标对齐
- 服务设计: 设计弹性、可扩展的服务
- 服务转换: 以最小中断管理变更
- 服务操作: 有效交付和支持服务
- 持续服务改进: 迭代增强服务质量
4. 运营卓越
- 文档化: 维护当前运行手册、程序和架构图
- 知识管理: 从事件解决方案构建可搜索知识库
- 容量规划: 主动预测和提供资源
- 成本优化: 平衡性能要求与基础设施成本
核心工作流
基础设施操作工作流
1. 监控与可观测性
├─ 为关键服务定义SLIs/SLOs/SLAs
├─ 实施指标收集(基础设施、应用、业务)
├─ 配置具有适当阈值和升级的警报
├─ 为不同受众(运维、开发、高管)构建仪表板
└─ 建立值班轮换和升级程序
2. 事件管理
├─ 接收警报或用户报告
├─ 评估严重性和影响(P1/P2/P3/P4)
├─ 参与适当的响应者
├─ 调查和诊断根本原因
├─ 实施修复或变通方案
├─ 向利益相关者沟通状态
├─ 在知识库中记录解决方案
└─ 进行事件后审查
3. 变更管理
├─ 提交带有影响评估的变更请求
├─ 通过CAB(变更顾问委员会)审查和批准
├─ 计划变更窗口
├─ 执行变更,准备回滚计划
├─ 验证成功标准
├─ 记录实际与计划结果
└─ 关闭变更票证
4. 容量规划
├─ 收集资源利用率趋势
├─ 分析增长模式
├─ 预测未来需求
├─ 计划采购或提供
├─ 执行容量增加
└─ 监控有效性
5. 自动化与优化
├─ 识别重复性手动任务
├─ 记录当前流程
├─ 设计自动化解决方案
├─ 实施和测试自动化
├─ 部署到生产环境
├─ 测量时间/成本节省
└─ 迭代和改进
决策框架
警报配置决策矩阵
| 场景 | 警报类型 | 阈值 | 响应时间 | 升级 |
|---|---|---|---|---|
| 服务完全中断 | 页面 | 立即 | < 5 分钟 | 立即到值班人员 |
| 服务降级 | 页面 | 2-3 次失败 | < 15 分钟 | 15 分钟后到值班人员 |
| 高资源使用率 | 警告 | > 80% 持续 | < 1 小时 | 2 小时后到团队领导 |
| 接近容量 | 信息 | > 70% 趋势 | < 24 小时 | 每周容量审查 |
| 配置漂移 | 票证 | 任何偏差 | < 7 天 | 月度审查 |
事件严重性分类
优先级 1(关键)
- 影响所有用户的完全服务中断
- 数据丢失或安全漏洞
- 财务影响 > 每小时 $10K
- 响应:立即,24/7,全员参与
优先级 2(高)
- 影响许多用户的部分服务中断
- 显著性能降级
- 财务影响 $1K-$10K/小时
- 响应:业务时间内 < 30 分钟
优先级 3(中)
- 影响部分用户的服务降级
- 非关键功能受损
- 变通方案可用
- 响应:业务时间内 < 4 小时
优先级 4(低)
- 影响极小的次要问题
- 外观问题
- 增强请求
- 响应:下一个工作日
变更管理风险评估
风险级别 = 影响 × 可能性 × 复杂度
影响 (1-5):
1 = 单个用户
2 = 团队
3 = 部门
4 = 公司范围
5 = 面向客户
问题可能性 (1-5):
1 = 常规,测试过
2 = 熟悉,有文档
3 = 有些不确定性
4 = 新领域
5 = 从未做过
复杂度 (1-5):
1 = 单个组件
2 = 少数组件
3 = 多个系统
4 = 跨平台
5 = 企业范围
风险评分解释:
1-20: 标准变更(预批准)
21-50: 正常变更(CAB审查)
51-75: 高风险变更(广泛测试,高级批准)
76-125: 仅紧急变更(执行批准)
监控工具选择
| 需求 | Prometheus + Grafana | Datadog | New Relic | ELK Stack | Splunk |
|---|---|---|---|---|---|
| 成本 | 免费(自托管) | $$$$ | $$$$ | 免费-$$ | $$$$$ |
| 指标 | 优秀 | 优秀 | 优秀 | 好 | 好 |
| 日志 | 通过 Loki | 优秀 | 优秀 | 优秀 | 优秀 |
| 追踪 | 通过 Tempo | 优秀 | 优秀 | 有限 | 好 |
| 学习曲线 | 陡峭 | 中等 | 中等 | 陡峭 | 陡峭 |
| 云原生 | 优秀 | 优秀 | 优秀 | 好 | 好 |
| 本地部署 | 优秀 | 好 | 好 | 优秀 | 优秀 |
| APM | 通过导出器 | 优秀 | 优秀 | 有限 | 好 |
常见运营挑战
挑战 1: 警报疲劳
问题: 过多误报警报导致团队疲劳
解决方案:
警报调优过程:
1. 测量基线警报量和误报率
2. 按可操作性分类警报:
- 可操作 + 紧急 = 保留为页面
- 可操作 + 不紧急 = 票证
- 不可操作 = 移除或转换为仪表板指标
3. 实施警报聚合(分组类似警报)
4. 向警报添加上下文(运行手册链接,相关指标)
5. 定期审查会议(每周)调优阈值
6. 跟踪指标:
- MTTA(平均确认时间):< 5 分钟目标
- 误报率:< 20% 目标
- 每周警报量:趋势下降
挑战 2: 危机期间事件文档化
问题: 团队在高压事件期间跳过文档化
解决方案:
- 分配专门记录员角色(非事件指挥官)
- 使用事件管理工具(PagerDuty、Opsgenie)自动时间线
- 基于模板的事件报告,含必填字段
- 事件后审查自动安排(48 小时内)
- 游戏化文档化(跟踪和认可详尽文档)
挑战 3: 知识孤岛
问题: 关键知识困在个别团队成员脑中
解决方案:
知识转移策略:
- 结对编程/影子: 冲刺容量的 20%
- 运行手册要求: 每个系统必须有运行手册
- 午餐学习会: 每周 30 分钟知识分享
- 交叉培训矩阵: 跟踪谁知道什么,识别缺口
- 值班轮换: 全员轮换以传播知识
- 事件后审查: 强制性团队分享
- 文档冲刺: 季度专注于文档完成
挑战 4: 平衡稳定性与创新
问题: 运维团队为保持稳定抵制变更
解决方案:
- 实施变更窗口(计划维护时段)
- 使用蓝绿或金丝雀部署降低风险
- 建立“创新时间”(谷歌 20% 时间模型)
- 创建沙盒环境供实验
- 测量并奖励稳定性和改进指标
- 将“苦力减少”作为 OKR 目标
关键指标与 KPI
服务可靠性指标
可用性:
公式: (总时间 - 停机时间) / 总时间 × 100
目标: 99.9%(每月 43.8 分钟停机)
测量: 按服务,月度
MTTR(平均恢复时间):
公式: 恢复时间总和 / 事件数
目标: P1 < 30 分钟,P2 < 4 小时
测量: 按严重级别,月度
MTBF(平均故障间隔时间):
公式: 总操作时间 / 故障数
目标: > 720 小时(30 天)
测量: 按服务,季度
MTTA(平均确认时间):
公式: 确认时间总和 / 警报数
目标: 页面 < 5 分钟
测量: 按值班工程师,每周
变更成功率:
公式: 成功变更 / 总变更 × 100
目标: > 95%
测量: 月度
事件复发率:
公式: 重复事件 / 总事件 × 100
目标: < 10%
测量: 季度(相同根本原因在 90 天内)
运营效率指标
苦力百分比:
定义: 花在手动、重复任务上的时间
目标: < 团队容量的 30%
测量: 每周时间跟踪
自动化覆盖率:
公式: 自动化任务 / 总重复任务 × 100
目标: > 70%
测量: 季度审核
值班负载:
公式: 每班可操作警报数
目标: < 每班 5 个可操作警报
测量: 按工程师,每周
运行手册覆盖率:
公式: 有运行手册的服务 / 总服务数 × 100
目标: 100%
测量: 月度审核
知识库使用率:
公式: 通过 KB 解决的事件 / 总事件 × 100
目标: > 40%
测量: 月度
集成点
与开发团队
- 参与设计审查以满足运营需求
- 提供部署自动化和 CI/CD 流水线支持
- 分享监控和日志要求
- 协作事件响应和事后分析
- 共同拥有 SLOs 和错误预算
与安全团队
- 实施安全监控和警报
- 管理访问控制和认证系统
- 协调漏洞修补和修复
- 进行安全事件响应
- 维护安全政策合规性
与业务利益相关者
- 报告服务可用性和性能
- 沟通计划维护窗口
- 提供容量规划预测
- 将技术指标翻译为业务影响
- 参与业务连续性规划
最佳实践
1. 无责事后分析
事件后审查模板:
- 事件摘要(发生了什么、何时、影响)
- 事件时间线(详细年表)
- 根本原因分析(5 个为什么或鱼骨图)
- 做得好(响应中的优势)
- 可改进之处(机会)
- 行动项(含负责人和截止日期)
- 经验教训(可分享见解)
规则:
- 无责或惩罚
- 聚焦系统和流程,非人员
- 人人可自由发言
- 行动项必须跟踪完成
2. 运行手册标准
运行手册内容:
- 服务概述: 目的、依赖、架构
- SLIs/SLOs/SLAs: 定义阈值和目标
- 常见问题: 症状、原因、解决方案
- 故障排除步骤: 逐步程序
- 升级路径: 联系谁和何时
- 有用命令: 复制粘贴就绪命令
- 仪表板链接: 直接链接到相关仪表板
- 最近变更: 链接到变更日志
- 联系信息: 团队、产品负责人、SMEs
维护:
- 季度或重大事件后审查
- 低流量期间测试程序
- 每次重大变更后更新
- 跟踪使用指标(页面浏览量、有用性评分)
3. 值班最佳实践
值班准备:
- 带VPN访问的笔记本电脑
- 带通知应用的移动设备
- 联系列表(升级路径)
- 访问所有关键系统
- 运行手册书签
- 识别备份值班
值班期间:
- 5 分钟内确认警报
- 定期更新事件状态
- 遵循升级程序
- 在事件票证中记录所有行动
- 清晰交接给下个值班
值班后:
- 完成事件报告
- 提交苦力减少票证
- 提供运行手册反馈
- 更新值班文档
4. 变更管理纪律
标准变更流程:
1. 创建变更请求(RFC)
2. 记录:
- 什么: 具体变更内容
- 为什么: 业务理由
- 何时: 建议日期/时间
- 谁: 变更实施者和批准者
- 如何: 逐步程序
- 风险: 评估和缓解
- 回滚: 详细回滚计划
- 测试: 验证步骤
3. 提交CAB审查(提前7天通知)
4. 批准窗口内实施
5. 验证成功标准
6. 记录实际结果后关闭变更
7. 如有问题,进行实施后审查
紧急变更流程:
- 需要执行批准
- 实施时加强监控
- 全员通知
- 24 小时内完成文档
- 强制性变更后审查
参考文件
详细技术指导见:
- reference/monitoring.md - 可观测性、指标、警报和仪表板设计
- reference/incident-management.md - 事件响应、根本原因分析、事后分析
- reference/infrastructure.md - 服务器管理、网络操作、容量规划
- reference/automation.md - 脚本、配置管理、编排工具
- reference/backup-recovery.md - 备份策略、灾难恢复、业务连续性
开始使用
- 新基础设施: 从reference/infrastructure.md开始获取设置指导
- 监控设置: 查看reference/monitoring.md获取可观测性策略
- 事件响应: 见reference/incident-management.md获取程序
- 自动化项目: 检查reference/automation.md获取工具推荐
- DR规划: 咨询reference/backup-recovery.md获取恢复策略