CSV数据整理专家 csv-data-wrangler

CSV数据整理专家是一个专注于高效处理、清洗和转换CSV文件的专业技能。它使用Python、DuckDB和命令行工具,解决大型CSV文件处理、编码问题、数据验证和格式转换等挑战。关键词:CSV处理、数据清洗、Python、DuckDB、大数据、表格数据、编码转换、数据验证、文件分块、SQL查询。

数据工程 0 次安装 0 次浏览 更新于 2/23/2026

name: csv-data-wrangler description: 使用Python、DuckDB和命令行工具进行高性能CSV处理、解析和数据清洗的专家。适用于处理CSV文件、清洗数据、转换数据集或处理大型表格数据文件。

CSV数据整理专家

目的

提供高效的CSV文件处理、数据清洗和转换的专业知识。处理大型文件、编码问题、格式错误的数据以及表格数据工作流的性能优化。

何时使用

  • 高效处理大型CSV文件
  • 清洗和验证CSV数据
  • 转换和重塑数据集
  • 处理编码和分隔符问题
  • 合并或拆分CSV文件
  • 在表格格式之间转换
  • 使用SQL查询CSV(DuckDB)

快速开始

在以下情况下调用此技能:

  • 高效处理大型CSV文件
  • 清洗和验证CSV数据
  • 转换和重塑数据集
  • 处理编码和分隔符问题
  • 使用SQL查询CSV

不要在以下情况下调用:

  • 构建带格式的Excel文件(使用xlsx-skill)
  • 数据的统计分析(使用data-analyst)
  • 构建数据管道(使用data-engineer)
  • 数据库操作(使用sql-pro)

决策框架

按文件大小选择工具:
├── < 100MB → pandas
├── 100MB - 1GB → pandas分块处理或polars
├── 1GB - 10GB → DuckDB或polars
├── > 10GB → DuckDB、Spark或流处理
└── 快速探索 → csvkit或xsv命令行工具

处理类型:
├── 类SQL查询 → DuckDB
├── 复杂转换 → pandas/polars
├── 简单过滤 → csvkit/xsv
└── 流处理 → Python csv模块

核心工作流

1. 大型CSV处理

  1. 分析文件(大小、编码、分隔符)
  2. 根据规模选择合适的工具
  3. 内存受限时进行分块处理
  4. 处理编码问题(UTF-8、Latin-1)
  5. 验证每列的数据类型
  6. 使用适当的引号格式写入输出

2. 数据清洗管道

  1. 加载样本以了解结构
  2. 识别缺失和格式错误的值
  3. 定义每列的清洗规则
  4. 应用转换
  5. 验证输出质量
  6. 记录清洗统计信息

3. 使用DuckDB查询CSV

  1. 将DuckDB指向CSV文件
  2. 让DuckDB推断模式
  3. 直接编写SQL查询
  4. 将结果导出到新的CSV
  5. 可选地持久化为Parquet格式

最佳实践

  • 始终明确指定编码
  • 对大型文件使用分块读取
  • 在选择工具前进行分析
  • 保留原始文件,写入新文件
  • 验证处理前后的行数
  • 正确处理带引号的字段和转义符

反模式

反模式 问题 正确方法
全部加载到内存 大型文件导致内存不足 使用分块或流处理
猜测编码 字符损坏 先用chardet检测
忽略引号 字段解析错误 使用正确的CSV解析器
无验证 数据静默损坏 验证行/列计数
手动字符串分割 在边缘情况下失败 使用csv模块或pandas