数据探索与剖析Skill data-explore-data

该技能用于对数据集进行全面剖析和探索,生成数据剖析报告,识别数据质量问题,推荐后续分析方向,以辅助数据驱动的决策。关键词:数据探索、数据剖析、数据质量分析、数据分析、数据科学、量化分析。

数据分析 0 次安装 0 次浏览 更新于 3/25/2026

name: data-explore-data description: 剖析和探索数据集以理解其形状、质量和模式

探索数据

如果看到不熟悉的占位符或需要检查连接了哪些工具,请询问可用集成。

为表或上传文件生成全面的数据剖析。在深入分析之前,了解其形状、质量和模式。

使用

您可以要求探索数据集(例如,“探索用户表”或“剖析这个CSV文件”)。

参数

  • 表或文件 — 要探索的表名或文件

工作流程

1. 访问数据

如果连接到数据仓库:

  1. 解析表名(处理模式前缀,如果模糊则建议匹配项)
  2. 查询表元数据:列名、类型、描述(如果可用)
  3. 对实时数据运行剖析查询

如果提供了文件(CSV、Excel、Parquet、JSON):

  1. 读取文件并加载到工作数据集中
  2. 从数据中推断列类型

如果两者都没有:

  1. 要求用户提供表名(连接其仓库)或上传文件
  2. 如果他们描述表模式,提供运行剖析查询的指导

2. 生成数据剖析

运行以下剖析检查:

表级指标:

  • 总行数
  • 列数和类型分类
  • 近似表大小(如果元数据可用)
  • 日期范围覆盖(日期列的最小/最大值)

每列列级指标:

  • 数据类型(以及是否匹配预期类型)
  • 空值计数和空值率(%)
  • 不同计数和基数(不同/总计)
  • 对于数值列:最小值、最大值、平均值、中位数、标准差、百分位数(p25、p50、p75、p95、p99)
  • 对于字符串列:最小/最大长度、最常见值(前10)、空字符串计数
  • 对于日期/时间戳列:最小值、最大值、按时间段的分布
  • 对于布尔列:真/假/空分布

将剖析呈现为干净的汇总表,按列类型分组(维度、度量、日期、ID)。

3. 识别数据质量问题

标记潜在问题:

  • 高空值率:列中空值率>5%(警告),>20%(警报)
  • 低基数惊喜:本应高基数但不是的列(例如,“用户ID”只有50个不同值)
  • 高基数惊喜:本应分类但不同值过多的列
  • 可疑值:期望正数但有负数的金额、历史数据中的未来日期、明显占位符值(例如,“N/A”、“TBD”、“test”、“999999”)
  • 重复检测:检查是否有自然键以及是否有重复
  • 分布偏斜:极度偏斜的数值分布,可能影响平均值
  • 编码问题:分类字段中的混合大小写、尾部空格、不一致的格式

4. 建议有趣的维度和度量

基于列剖析,推荐:

  • 最佳维度列用于切片数据(具有合理基数、3-50值的分类列)
  • 关键度量列用于测量(具有有意义分布的数值列)
  • 适合趋势分析的时间列
  • 自然分组或数据中明显的层次结构
  • 潜在的连接键链接到其他表(ID列、外键)

5. 推荐后续分析

建议3-5个具体的后续分析:

  • “在[时间列]上对[度量]进行趋势分析,按[维度]分组”
  • “对[偏斜列]进行分布深入以理解离群值”
  • “对[问题列]进行数据质量调查”
  • “[度量_a]和[度量_b]之间的相关性分析”
  • “使用[日期列]和[状态列]的队列分析”

输出格式

## 数据剖析: [表名]

### 概述
- 行数: 2,340,891
- 列数: 23 (8 维度, 6 度量, 4 日期, 5 ID)
- 日期范围: 2021-03-15 到 2024-01-22

### 列详情
[汇总表]

### 数据质量问题
[带严重性的标记问题]

### 推荐探索
[编号的建议后续分析列表]

提示

  • 对于非常大的表(100M+行),剖析查询默认使用抽样——如果需要精确计数,请提及
  • 如果是首次探索新数据集,此命令在编写具体查询前给出概览
  • 质量标记是启发式的——不是每个标记都是真正的问题,但每个都值得快速查看