ETL开发 Skill技能列表

4.5

转换技能Skill transform

转换技能用于执行SQL或Python数据转换任务,支持从源表读取数据并写入目标表,具备依赖管理、多种写入策略和递归执行功能。适用于数据工程、ETL开发、数据仓库构建和数据处理流程,关键词包括SQL转换、Python脚本、数据管道、ETL工具、数据集成、数据科学、数据库管理。

4.5

数据加载技能Skill load

此技能用于将数据文件从待处理区域高效加载到数据仓库中,实现ETL(提取、转换、加载)过程。它包括数据验证以符合模式、应用写策略(如APPEND、OVERWRITE)、强制执行数据质量期望(如唯一性检查)和隐私转换。支持多种文件格式(JSON、CSV、XML),并通过配置灵活管理数据加载。关键词:数据加载,ETL,数据仓库,数据验证,写策略,数据质量,隐私转换,文件格式,配置管理。

4.5

提取技能Skill extract

提取技能是Starlake工具中的一项功能,用于从JDBC数据库源提取模式和数据。它将数据库模式的元数据提取为YAML文件,并将实际数据提取到文件中。这个技能结合了模式提取和数据提取,是一个方便的ETL命令,适用于数据工程、数据仓库和ETL开发工作流,帮助自动化数据处理任务。关键词:数据提取,数据库模式,JDBC,ETL,数据工程,数据仓库,Starlake。

4.5

Dask并行计算Skill dask

Dask是一个Python并行和分布式计算库,用于处理超出内存的大型数据集,并行化pandas和NumPy操作,支持ETL开发、数据工程和科学计算。关键词:Python、并行计算、分布式计算、大数据、数据处理、ETL、数据科学。

4.5

自动加载Skill autoload

自动加载技能通过监控传入目录,自动推断数据文件的模式,生成配置文件,并将数据高效加载到数据仓库中,适用于快速数据集成和ETL流程优化,关键词包括:自动加载、模式推断、数据仓库、ETL、数据工程。

4.5

连接加载技能Skill cnxload

此技能用于将Parquet、CSV或JSON文件直接加载到JDBC数据库表,提供快速数据导入功能,支持多种数据库驱动和并行写入选项,适用于数据集成、ETL开发和数据仓库场景,关键词包括:数据加载、JDBC、Parquet、CSV、JSON、数据库连接、ETL、批量处理。

4.5

CocoIndex数据索引框架Skill cocoindex

CocoIndex 是一个用于 AI 数据处理的实时数据转换框架,支持构建 ETL 工作流,包括文档嵌入到向量数据库、知识图谱构建、搜索索引创建等。关键功能包括增量处理、实时更新、多数据源和目标支持,适用于数据工程师和 AI 开发者进行高效数据转换和索引。关键词:数据转换、ETL、AI 数据处理、文档嵌入、向量数据库、知识图谱、实时索引。

4.5

提取脚本技能Skill extract-script

提取脚本技能能够从 Mustache 或 SSP 模板自动生成 SQL DDL 脚本,适用于不同数据库平台,支持自定义提取、增量更新和审计功能,提升数据库脚本开发效率。关键词:提取脚本、Mustache 模板、SSP 模板、SQL DDL、数据库脚本生成、增量提取、审计模式。

4.5

作业技能Skill job

starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。

4.5

JSON与CSV数据转换Skill json-and-csv-data-transformation

这个技能用于在JSON、CSV等数据格式之间进行转换,支持过滤、提取、映射、扁平化嵌套结构和聚合操作。适用于数据处理工作流,如API响应处理、ETL流程、数据清洗和报表生成,提升数据分析和集成效率。关键词:JSON转换, CSV转换, 数据过滤, 数据扁平化, ETL, 数据处理, 数据工程, API集成。

4.5

数据摄入技能Skill ingesting-data

数据摄入技能专注于从多种源高效加载数据到数据库和系统的模式与实践。它涵盖ETL开发、云存储集成、API消费、流式数据处理等,支持批量处理和实时摄入,适用于数据工程、数据分析、ETL管道构建等场景。关键词:数据摄入、ETL开发、数据工程、云存储、API集成、实时数据处理、数据库迁移、更改数据捕获、ETL框架。