名称: 可观测性描述: 日志、指标和追踪分析的方法论。用于分析日志、调查错误、查询指标或在可观测性后端（Coralogix、Datadog、CloudWatch）之间关联信号时使用。

可观测性分析

核心原则：统计先于样本

永远不要从阅读原始日志开始。 始终从聚合统计开始：

数量: 时间窗口内有多少日志？
分布: 哪些服务/级别/错误类型？
趋势: 是增加、稳定还是减少？
然后采样: 了解概况后获取特定条目

可用后端

重要: 凭据通过代理层自动注入。不要检查环境变量中的API密钥 - 它们不会在那里。直接使用后端脚本；身份验证是透明处理的。

可用后端（使用 /skill-name 调用）:

Coralogix (DataPrime) - /observability-coralogix
Datadog - /observability-datadog
Honeycomb - /observability-honeycomb
Splunk (SPL) - /observability-splunk
Elasticsearch/OpenSearch - /observability-elasticsearch
Jaeger (追踪) - /observability-jaeger

要检查后端是否工作，尝试一个简单查询，而不是检查环境变量。

后端特定技能

Coralogix: /observability-coralogix - DataPrime 语法，日志/追踪分析
Datadog: /observability-datadog - DQL 语法，指标和APM
Honeycomb: /observability-honeycomb - 高基数分析，分布式追踪
Splunk: /observability-splunk - SPL 语法，保存的搜索
Elasticsearch: /observability-elasticsearch - Lucene/Query DSL
Jaeger: /observability-jaeger - 分布式追踪，延迟分析

分析框架

步骤 1: 获取大局

总日志量
错误率和分布
哪些服务受影响最大

步骤 2: 识别模式

错误聚类（短时间内许多错误）
时间模式（在 X 时间开始）
服务关联（服务 A 错误 → 服务 B 错误）

步骤 3: 策略性采样

从错误峰值采样
获取每种不同错误类型的示例
与基准期比较

输出格式

报告可观测性发现时，使用此结构：

## 日志分析摘要

### 时间窗口
- 开始: [时间戳]
- 结束: [时间戳]
- 持续时间: X 小时

### 统计
- 总日志: X 事件
- 错误计数: Y 事件 (Z%)
- 受影响服务: N 服务
- 错误率趋势: [增加/稳定/减少]

### 顶级错误服务
1. [服务1]: N 错误
2. [服务2]: M 错误

### 错误模式
- 主要错误类型: [描述]
- 首次出现: [时间戳]
- 关联: [部署/流量/外部事件]

### 样本错误
[引用 2-3 个代表性错误消息及上下文]

### 根因假设
[基于观察到的模式]

### 置信水平
[高/中/低 并解释]

名称: 可观测性 描述: 日志、指标和追踪分析的方法论。用于分析日志、调查错误、查询指标或在可观测性后端（Coralogix、Datadog、CloudWatch）之间关联信号时使用。

可观测性分析

核心原则：统计先于样本

可用后端

后端特定技能

分析框架

步骤 1: 获取大局

步骤 2: 识别模式

步骤 3: 策略性采样

输出格式

名称: 可观测性描述: 日志、指标和追踪分析的方法论。用于分析日志、调查错误、查询指标或在可观测性后端（Coralogix、Datadog、CloudWatch）之间关联信号时使用。