探索性数据分析Skill exploratory-data-analysis

探索性数据分析(EDA)技能,用于分析和探索数据文件,生成统计摘要、可视化图表和报告,帮助用户发现数据模式、异常和关系,优化数据质量和洞察。关键词:探索性数据分析、EDA、数据探索、统计分析、数据可视化、数据质量评估。

数据分析 0 次安装 0 次浏览 更新于 3/16/2026

name: exploratory-data-analysis description: “EDA工具包。分析CSV/Excel/JSON/Parquet文件,生成统计摘要、分布、相关性、异常值、缺失数据、可视化和markdown报告,用于数据剖析和洞察。”

探索性数据分析

概述

EDA是一个发现数据中模式、异常和关系的过程。分析CSV/Excel/JSON/Parquet文件以生成统计摘要、分布、相关性、异常值和可视化。所有输出都是markdown格式,便于集成到工作流中。

何时使用此技能

此技能应在以下情况使用:

  • 用户提供数据文件并请求分析或探索
  • 用户询问“探索这个数据集”、“分析这个数据”或“这个文件里有什么?”
  • 用户需要统计摘要、分布或相关性
  • 用户请求数据可视化或洞察
  • 用户想要理解数据质量问题或模式
  • 用户提及EDA、探索性分析或数据剖析

支持的文件格式:CSV、Excel (.xlsx, .xls)、JSON、Parquet、TSV、Feather、HDF5、Pickle

快速入门工作流

  1. 接收用户的数据文件
  2. 使用scripts/eda_analyzer.py运行全面分析
  3. 使用scripts/visualizer.py生成可视化
  4. 使用洞察和assets/report_template.md模板创建markdown报告
  5. 向用户展示发现,突出关键洞察

核心能力

1. 全面数据分析

使用eda_analyzer.py脚本执行完整统计分析:

python scripts/eda_analyzer.py <data_file_path> -o <output_directory>

提供内容

  • 自动检测和加载文件格式
  • 基本数据集信息(形状、类型、内存使用)
  • 缺失数据分析(模式、百分比)
  • 数值和分类变量的摘要统计
  • 使用IQR和Z-score方法的异常值检测
  • 带有正态性测试(Shapiro-Wilk、Anderson-Darling)的分布分析
  • 相关性分析(Pearson和Spearman)
  • 数据质量评估(完整性、重复项、问题)
  • 自动化洞察生成

输出:包含所有分析结果的JSON文件,位于<output_directory>/eda_analysis.json

2. 全面可视化

使用visualizer.py脚本生成完整可视化套件:

python scripts/visualizer.py <data_file_path> -o <output_directory>

生成的可视化

  • 缺失数据模式:显示缺失数据的热图和条形图
  • 分布图:所有数值变量的直方图,带有KDE覆盖
  • 箱线图与小提琴图:异常值检测可视化
  • 相关性热图:Pearson和Spearman相关矩阵
  • 散点矩阵:数值变量之间的成对关系
  • 分类分析:顶级类别的条形图
  • 时间序列图:时间趋势与趋势线(如果存在日期时间列)

输出:高质量PNG文件保存到<output_directory>/eda_visualizations/

所有可视化都是生产就绪的,具有:

  • 300 DPI分辨率
  • 清晰的标题和标签
  • 统计注释
  • 使用seaborn的专业样式

3. 自动化洞察生成

分析器自动生成可操作的洞察,包括:

  • 数据规模洞察:数据集大小考虑处理
  • 缺失数据警报:当缺失数据超过阈值时的警告
  • 相关性发现:为特征工程识别的强关系
  • 异常值警告:标记高异常值率的变量
  • 分布评估:需要转换的偏斜问题
  • 重复项警报:重复行检测
  • 不平衡警告:分类变量不平衡检测

从分析结果JSON中的"insights"键访问洞察。

4. 统计解释

有关统计测试和度量的详细解释,参考:

references/statistical_tests_guide.md - 全面指南覆盖:

  • 正态性测试(Shapiro-Wilk、Anderson-Darling、Kolmogorov-Smirnov)
  • 分布特征(偏度、峰度)
  • 相关性测试(Pearson、Spearman)
  • 异常值检测方法(IQR、Z-score)
  • 假设测试指南
  • 数据转换策略

在需要解释特定统计测试或向用户解释结果时加载此参考。

5. 最佳实践指导

有关方法指导,参考:

references/eda_best_practices.md - 详细最佳实践包括:

  • EDA过程框架(6步方法)
  • 单变量、双变量和多变量分析方法
  • 可视化指南
  • 统计分析指南
  • 避免的常见陷阱
  • 领域特定考虑
  • 技术和非技术受众的沟通技巧

在规划分析方法或需要特定EDA场景指导时加载此参考。

创建分析报告

使用提供的模板构建全面EDA报告:

assets/report_template.md - 专业报告模板,部分包括:

  • 执行摘要
  • 数据集概述
  • 数据质量评估
  • 单变量、双变量和多变量分析
  • 异常值分析
  • 关键洞察和发现
  • 建议
  • 限制和附录

使用模板

  1. 复制模板内容
  2. 使用JSON输出中的分析结果填充部分
  3. 使用markdown语法嵌入可视化图像
  4. 填充洞察和建议
  5. 保存为markdown供用户消费

典型工作流示例

当用户提供数据文件时:

用户:"你能探索这个sales_data.csv文件并告诉我你发现了什么吗?"

1. 运行分析:
   python scripts/eda_analyzer.py sales_data.csv -o ./analysis_output

2. 生成可视化:
   python scripts/visualizer.py sales_data.csv -o ./analysis_output

3. 读取分析结果:
   读取 ./analysis_output/eda_analysis.json

4. 使用模板创建markdown报告:
   - 复制assets/report_template.md结构
   - 使用分析结果填充部分
   - 参考来自./analysis_output/eda_visualizations/的可视化
   - 包括来自JSON的自动化洞察

5. 向用户展示:
   - 突出显示关键洞察
   - 强调数据质量问题
   - 内联提供可视化
   - 做出可操作的建议
   - 保存完整报告为.md文件

高级分析场景

大型数据集(>1M行)

  • 首先在抽样数据上运行分析以快速探索
  • 在报告中注明样本大小
  • 推荐分布式计算进行全面分析

高维数据(>50列)

  • 首先关注最重要变量
  • 考虑PCA或特征选择
  • 生成相关性分析以识别变量组
  • 参考eda_best_practices.md中关于高维数据的部分

时间序列数据

  • 确保日期时间列被正确检测
  • 时间序列可视化将自动生成
  • 考虑时间模式、趋势和季节性
  • 参考eda_best_practices.md中关于时间序列的部分

不平衡数据

  • 分类分析将标记不平衡
  • 在报告中突出类分布
  • 如果需要,推荐分层抽样

小样本大小(<100行)

  • 在适当情况下自动使用非参数方法
  • 在统计结论中保持保守
  • 在报告中注明样本大小限制

输出最佳实践

始终输出为markdown

  • 使用markdown标题、表格和列表构建发现
  • 使用![描述](路径/到/图像.png)语法嵌入可视化
  • 使用表格进行统计摘要
  • 包括任何建议转换的代码块
  • 使用粗体或项目符号突出关键洞察

确保报告可操作

  • 基于发现提供清晰建议
  • 标记需要注意的数据质量问题
  • 建议建模或进一步分析的下一步
  • 识别特征工程机会

使洞察易于访问

  • 用简单语言解释统计概念
  • 使用参考指南提供详细解释
  • 包括技术细节和执行摘要
  • 根据用户技术水平定制沟通

处理边缘情况

不支持的文件格式

  • 请求用户转换为支持格式
  • 建议使用pandas兼容格式

文件太大无法加载

  • 推荐抽样方法
  • 建议分块处理
  • 考虑大数据替代工具

损坏或格式错误的数据

  • 报告遇到的特定错误
  • 建议数据清洗步骤
  • 如果可能,尝试挽救部分分析

列中所有数据缺失

  • 标记完全空列
  • 推荐删除或调查
  • 在数据质量部分文档化

资源总结

scripts/

  • eda_analyzer.py:主要分析引擎 - 全面统计分析
  • visualizer.py:可视化生成器 - 创建所有图表类型

两个脚本都是完全可执行的,并自动处理多个文件格式。

references/

  • statistical_tests_guide.md:统计测试解释和方法
  • eda_best_practices.md:全面EDA方法和最佳实践

根据需要加载这些参考以指导分析方法和解释。

assets/

  • report_template.md:专业markdown报告模板

使用此模板结构创建一致、全面的EDA报告。

关键提醒

  1. 始终为文本结果生成markdown输出
  2. 运行两个脚本(分析器和可视化器)进行全面分析
  3. 使用模板构建全面报告
  4. 通过引用生成的PNG文件包括可视化
  5. 提供可操作的洞察 - 不要仅仅呈现统计
  6. 使用参考指南解释发现
  7. 文档化限制和数据质量问题
  8. 为下一步做出建议

此技能通过系统探索、高级统计、丰富可视化和清晰沟通,将原始数据转化为可操作的洞察。