名称: 可观测性 描述: 日志、指标和追踪分析的方法论。用于分析日志、调查错误、查询指标或在可观测性后端(Coralogix、Datadog、CloudWatch)之间关联信号时使用。
可观测性分析
核心原则:统计先于样本
永远不要从阅读原始日志开始。 始终从聚合统计开始:
- 数量: 时间窗口内有多少日志?
- 分布: 哪些服务/级别/错误类型?
- 趋势: 是增加、稳定还是减少?
- 然后采样: 了解概况后获取特定条目
可用后端
重要: 凭据通过代理层自动注入。不要检查环境变量中的API密钥 - 它们不会在那里。直接使用后端脚本;身份验证是透明处理的。
可用后端(使用 /skill-name 调用):
- Coralogix (DataPrime) -
/observability-coralogix - Datadog -
/observability-datadog - Honeycomb -
/observability-honeycomb - Splunk (SPL) -
/observability-splunk - Elasticsearch/OpenSearch -
/observability-elasticsearch - Jaeger (追踪) -
/observability-jaeger
要检查后端是否工作,尝试一个简单查询,而不是检查环境变量。
后端特定技能
- Coralogix:
/observability-coralogix- DataPrime 语法,日志/追踪分析 - Datadog:
/observability-datadog- DQL 语法,指标和APM - Honeycomb:
/observability-honeycomb- 高基数分析,分布式追踪 - Splunk:
/observability-splunk- SPL 语法,保存的搜索 - Elasticsearch:
/observability-elasticsearch- Lucene/Query DSL - Jaeger:
/observability-jaeger- 分布式追踪,延迟分析
分析框架
步骤 1: 获取大局
- 总日志量
- 错误率和分布
- 哪些服务受影响最大
步骤 2: 识别模式
- 错误聚类(短时间内许多错误)
- 时间模式(在 X 时间开始)
- 服务关联(服务 A 错误 → 服务 B 错误)
步骤 3: 策略性采样
- 从错误峰值采样
- 获取每种不同错误类型的示例
- 与基准期比较
输出格式
报告可观测性发现时,使用此结构:
## 日志分析摘要
### 时间窗口
- 开始: [时间戳]
- 结束: [时间戳]
- 持续时间: X 小时
### 统计
- 总日志: X 事件
- 错误计数: Y 事件 (Z%)
- 受影响服务: N 服务
- 错误率趋势: [增加/稳定/减少]
### 顶级错误服务
1. [服务1]: N 错误
2. [服务2]: M 错误
### 错误模式
- 主要错误类型: [描述]
- 首次出现: [时间戳]
- 关联: [部署/流量/外部事件]
### 样本错误
[引用 2-3 个代表性错误消息及上下文]
### 根因假设
[基于观察到的模式]
### 置信水平
[高/中/低 并解释]