Parquet转CSV工具Skill parquet2csv

这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。

数据工程 0 次安装 0 次浏览 更新于 3/15/2026

名称: parquet2csv 描述: 将Parquet文件转换为CSV格式

Parquet 到 CSV 技能

将Parquet文件转换为CSV格式。适用于将数据导出到不支持Parquet的系统,或用于人工可读的数据检查。

用法

starlake parquet2csv [options]

选项

  • --input_dir <值>: 包含Parquet文件的输入目录的完整路径(必需)
  • --output_dir <值>: 输出CSV文件的目录的完整路径(默认:与input_dir相同)
  • --domain <值>: 要转换的域名(按域过滤)
  • --schema <值>: 要转换的模式/表名(按表过滤)
  • --delete_source: 成功转换后删除源Parquet文件
  • --write_mode <值>: 写入模式:OVERWRITE, APPEND, ERROR_IF_EXISTS
  • --partitions <值>: 输出CSV文件的分区数
  • --options k1=v1,k2=v2: Spark CSV写入器选项:
    • sep / delimiter: 字段分隔符(默认:,
    • quote: 引号字符
    • quoteAll: 引用所有字段
    • escape: 转义字符
    • header: 包含标题行(默认:true
    • dateFormat: 日期格式模式
    • timestampFormat: 时间戳格式模式
  • --reportFormat <值>: 报告输出格式:console, json, 或 html

示例

转换所有Parquet文件

starlake parquet2csv --input_dir /data/parquet --output_dir /data/csv

转换特定域

starlake parquet2csv --input_dir /data/parquet --output_dir /data/csv --domain starbake

转换特定表

starlake parquet2csv --input_dir /data/parquet --output_dir /data/csv --domain starbake --schema orders

使用自定义分隔符转换

starlake parquet2csv --input_dir /data/parquet --output_dir /data/csv --options sep=;,header=true

转换并删除源文件

starlake parquet2csv --input_dir /data/parquet --output_dir /data/csv --delete_source

使用单个输出分区转换

starlake parquet2csv --input_dir /data/parquet --output_dir /data/csv --partitions 1

相关技能

  • load - 加载数据(生成Parquet输出)
  • extract-data - 从数据库提取数据