可观测性Skill observability

可观测性分析技能专注于日志、指标和追踪数据的统计分析方法,用于系统监控、错误调查、性能优化和云原生服务管理。关键词包括:可观测性、日志分析、指标查询、错误调查、云监控、DevOps、分布式追踪、可观测性后端、统计分析。

DevOps 0 次安装 0 次浏览 更新于 3/15/2026

名称: 可观测性 描述: 日志、指标和追踪分析的方法论。用于分析日志、调查错误、查询指标或在可观测性后端(Coralogix、Datadog、CloudWatch)之间关联信号时使用。

可观测性分析

核心原则:统计先于样本

永远不要从阅读原始日志开始。 始终从聚合统计开始:

  1. 数量: 时间窗口内有多少日志?
  2. 分布: 哪些服务/级别/错误类型?
  3. 趋势: 是增加、稳定还是减少?
  4. 然后采样: 了解概况后获取特定条目

可用后端

重要: 凭据通过代理层自动注入。不要检查环境变量中的API密钥 - 它们不会在那里。直接使用后端脚本;身份验证是透明处理的。

可用后端(使用 /skill-name 调用):

  • Coralogix (DataPrime) - /observability-coralogix
  • Datadog - /observability-datadog
  • Honeycomb - /observability-honeycomb
  • Splunk (SPL) - /observability-splunk
  • Elasticsearch/OpenSearch - /observability-elasticsearch
  • Jaeger (追踪) - /observability-jaeger

要检查后端是否工作,尝试一个简单查询,而不是检查环境变量。

后端特定技能

  • Coralogix: /observability-coralogix - DataPrime 语法,日志/追踪分析
  • Datadog: /observability-datadog - DQL 语法,指标和APM
  • Honeycomb: /observability-honeycomb - 高基数分析,分布式追踪
  • Splunk: /observability-splunk - SPL 语法,保存的搜索
  • Elasticsearch: /observability-elasticsearch - Lucene/Query DSL
  • Jaeger: /observability-jaeger - 分布式追踪,延迟分析

分析框架

步骤 1: 获取大局

  • 总日志量
  • 错误率和分布
  • 哪些服务受影响最大

步骤 2: 识别模式

  • 错误聚类(短时间内许多错误)
  • 时间模式(在 X 时间开始)
  • 服务关联(服务 A 错误 → 服务 B 错误)

步骤 3: 策略性采样

  • 从错误峰值采样
  • 获取每种不同错误类型的示例
  • 与基准期比较

输出格式

报告可观测性发现时,使用此结构:

## 日志分析摘要

### 时间窗口
- 开始: [时间戳]
- 结束: [时间戳]
- 持续时间: X 小时

### 统计
- 总日志: X 事件
- 错误计数: Y 事件 (Z%)
- 受影响服务: N 服务
- 错误率趋势: [增加/稳定/减少]

### 顶级错误服务
1. [服务1]: N 错误
2. [服务2]: M 错误

### 错误模式
- 主要错误类型: [描述]
- 首次出现: [时间戳]
- 关联: [部署/流量/外部事件]

### 样本错误
[引用 2-3 个代表性错误消息及上下文]

### 根因假设
[基于观察到的模式]

### 置信水平
[高/中/低 并解释]