⚡

数据探索与剖析Skill data-explore-data

该技能用于对数据集进行全面剖析和探索，生成数据剖析报告，识别数据质量问题，推荐后续分析方向，以辅助数据驱动的决策。关键词：数据探索、数据剖析、数据质量分析、数据分析、数据科学、量化分析。

数据分析 0 次安装 8 次浏览更新于 3/25/2026

name: data-explore-data description: 剖析和探索数据集以理解其形状、质量和模式

探索数据

如果看到不熟悉的占位符或需要检查连接了哪些工具，请询问可用集成。

为表或上传文件生成全面的数据剖析。在深入分析之前，了解其形状、质量和模式。

使用

您可以要求探索数据集（例如，“探索用户表”或“剖析这个CSV文件”）。

参数

表或文件 — 要探索的表名或文件

工作流程

1. 访问数据

如果连接到数据仓库：

解析表名（处理模式前缀，如果模糊则建议匹配项）
查询表元数据：列名、类型、描述（如果可用）
对实时数据运行剖析查询

如果提供了文件（CSV、Excel、Parquet、JSON）：

读取文件并加载到工作数据集中
从数据中推断列类型

如果两者都没有：

要求用户提供表名（连接其仓库）或上传文件
如果他们描述表模式，提供运行剖析查询的指导

2. 生成数据剖析

运行以下剖析检查：

表级指标：

总行数
列数和类型分类
近似表大小（如果元数据可用）
日期范围覆盖（日期列的最小/最大值）

每列列级指标：

数据类型（以及是否匹配预期类型）
空值计数和空值率（%）
不同计数和基数（不同/总计）
对于数值列：最小值、最大值、平均值、中位数、标准差、百分位数（p25、p50、p75、p95、p99）
对于字符串列：最小/最大长度、最常见值（前10）、空字符串计数
对于日期/时间戳列：最小值、最大值、按时间段的分布
对于布尔列：真/假/空分布

将剖析呈现为干净的汇总表，按列类型分组（维度、度量、日期、ID）。

3. 识别数据质量问题

标记潜在问题：

高空值率：列中空值率>5%（警告），>20%（警报）
低基数惊喜：本应高基数但不是的列（例如，“用户ID”只有50个不同值）
高基数惊喜：本应分类但不同值过多的列
可疑值：期望正数但有负数的金额、历史数据中的未来日期、明显占位符值（例如，“N/A”、“TBD”、“test”、“999999”）
重复检测：检查是否有自然键以及是否有重复
分布偏斜：极度偏斜的数值分布，可能影响平均值
编码问题：分类字段中的混合大小写、尾部空格、不一致的格式

4. 建议有趣的维度和度量

基于列剖析，推荐：

最佳维度列用于切片数据（具有合理基数、3-50值的分类列）
关键度量列用于测量（具有有意义分布的数值列）
适合趋势分析的时间列
自然分组或数据中明显的层次结构
潜在的连接键链接到其他表（ID列、外键）

5. 推荐后续分析

建议3-5个具体的后续分析：

“在[时间列]上对[度量]进行趋势分析，按[维度]分组”
“对[偏斜列]进行分布深入以理解离群值”
“对[问题列]进行数据质量调查”
“[度量_a]和[度量_b]之间的相关性分析”
“使用[日期列]和[状态列]的队列分析”

输出格式

## 数据剖析: [表名]

### 概述
- 行数: 2,340,891
- 列数: 23 (8 维度, 6 度量, 4 日期, 5 ID)
- 日期范围: 2021-03-15 到 2024-01-22

### 列详情
[汇总表]

### 数据质量问题
[带严重性的标记问题]

### 推荐探索
[编号的建议后续分析列表]

提示

对于非常大的表（100M+行），剖析查询默认使用抽样——如果需要精确计数，请提及
如果是首次探索新数据集，此命令在编写具体查询前给出概览
质量标记是启发式的——不是每个标记都是真正的问题，但每个都值得快速查看