name: data-explore-data description: 剖析和探索数据集以理解其形状、质量和模式
探索数据
如果看到不熟悉的占位符或需要检查连接了哪些工具,请询问可用集成。
为表或上传文件生成全面的数据剖析。在深入分析之前,了解其形状、质量和模式。
使用
您可以要求探索数据集(例如,“探索用户表”或“剖析这个CSV文件”)。
参数
表或文件— 要探索的表名或文件
工作流程
1. 访问数据
如果连接到数据仓库:
- 解析表名(处理模式前缀,如果模糊则建议匹配项)
- 查询表元数据:列名、类型、描述(如果可用)
- 对实时数据运行剖析查询
如果提供了文件(CSV、Excel、Parquet、JSON):
- 读取文件并加载到工作数据集中
- 从数据中推断列类型
如果两者都没有:
- 要求用户提供表名(连接其仓库)或上传文件
- 如果他们描述表模式,提供运行剖析查询的指导
2. 生成数据剖析
运行以下剖析检查:
表级指标:
- 总行数
- 列数和类型分类
- 近似表大小(如果元数据可用)
- 日期范围覆盖(日期列的最小/最大值)
每列列级指标:
- 数据类型(以及是否匹配预期类型)
- 空值计数和空值率(%)
- 不同计数和基数(不同/总计)
- 对于数值列:最小值、最大值、平均值、中位数、标准差、百分位数(p25、p50、p75、p95、p99)
- 对于字符串列:最小/最大长度、最常见值(前10)、空字符串计数
- 对于日期/时间戳列:最小值、最大值、按时间段的分布
- 对于布尔列:真/假/空分布
将剖析呈现为干净的汇总表,按列类型分组(维度、度量、日期、ID)。
3. 识别数据质量问题
标记潜在问题:
- 高空值率:列中空值率>5%(警告),>20%(警报)
- 低基数惊喜:本应高基数但不是的列(例如,“用户ID”只有50个不同值)
- 高基数惊喜:本应分类但不同值过多的列
- 可疑值:期望正数但有负数的金额、历史数据中的未来日期、明显占位符值(例如,“N/A”、“TBD”、“test”、“999999”)
- 重复检测:检查是否有自然键以及是否有重复
- 分布偏斜:极度偏斜的数值分布,可能影响平均值
- 编码问题:分类字段中的混合大小写、尾部空格、不一致的格式
4. 建议有趣的维度和度量
基于列剖析,推荐:
- 最佳维度列用于切片数据(具有合理基数、3-50值的分类列)
- 关键度量列用于测量(具有有意义分布的数值列)
- 适合趋势分析的时间列
- 自然分组或数据中明显的层次结构
- 潜在的连接键链接到其他表(ID列、外键)
5. 推荐后续分析
建议3-5个具体的后续分析:
- “在[时间列]上对[度量]进行趋势分析,按[维度]分组”
- “对[偏斜列]进行分布深入以理解离群值”
- “对[问题列]进行数据质量调查”
- “[度量_a]和[度量_b]之间的相关性分析”
- “使用[日期列]和[状态列]的队列分析”
输出格式
## 数据剖析: [表名]
### 概述
- 行数: 2,340,891
- 列数: 23 (8 维度, 6 度量, 4 日期, 5 ID)
- 日期范围: 2021-03-15 到 2024-01-22
### 列详情
[汇总表]
### 数据质量问题
[带严重性的标记问题]
### 推荐探索
[编号的建议后续分析列表]
提示
- 对于非常大的表(100M+行),剖析查询默认使用抽样——如果需要精确计数,请提及
- 如果是首次探索新数据集,此命令在编写具体查询前给出概览
- 质量标记是启发式的——不是每个标记都是真正的问题,但每个都值得快速查看