ESLoad技能Skill esload

这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。

数据工程 0 次安装 0 次浏览 更新于 3/15/2026

name: esload description: 将数据加载到Elasticsearch中

ESLoad 技能

从文件(Parquet、JSON)加载数据到Elasticsearch索引。支持自定义映射、文档ID和基于时间戳的索引命名。

用法

starlake esload [options]

选项

  • --domain <值>: 域名(必需)
  • --schema <值>: 模式/表名(必需)
  • --format <值>: 输入文件格式:parquetjsonjson-array(必需)
  • --dataset <值>: 输入数据集路径
  • --timestamp <值>: Elasticsearch索引时间戳后缀,例如 {@timestamp|yyyy.MM.dd}
  • --id <值>: 用作Elasticsearch文档ID的属性名
  • --mapping <值>: 自定义Elasticsearch映射文件路径
  • --conf k1=v1,k2=v2: Elasticsearch-Spark配置选项
  • --reportFormat <值>: 报告输出格式:consolejsonhtml

示例

加载Parquet数据到Elasticsearch

starlake esload --domain starbake --schema orders --format parquet

加载JSON并自定义文档ID

starlake esload --domain starbake --schema orders --format json --id order_id

加载并基于时间戳索引

starlake esload --domain starbake --schema orders --format parquet --timestamp "{@timestamp|yyyy.MM.dd}"

加载并自定义映射

starlake esload --domain starbake --schema orders --format json --mapping /path/to/mapping.json

从特定数据集路径加载

starlake esload --domain starbake --schema orders --format parquet --dataset /data/orders/

相关技能

  • index - esload的别名
  • load - 加载数据到数据仓库
  • cnxload - 加载数据到JDBC表