ETL开发 Skill技能列表

4.5

提取技能Skill extract

提取技能是Starlake工具中的一项功能,用于从JDBC数据库源提取模式和数据。它将数据库模式的元数据提取为YAML文件,并将实际数据提取到文件中。这个技能结合了模式提取和数据提取,是一个方便的ETL命令,适用于数据工程、数据仓库和ETL开发工作流,帮助自动化数据处理任务。关键词:数据提取,数据库模式,JDBC,ETL,数据工程,数据仓库,Starlake。

4.5

自动加载Skill autoload

自动加载技能通过监控传入目录,自动推断数据文件的模式,生成配置文件,并将数据高效加载到数据仓库中,适用于快速数据集成和ETL流程优化,关键词包括:自动加载、模式推断、数据仓库、ETL、数据工程。

4.5

Polars数据处理库Skill polars

Polars是一个基于Apache Arrow的快速内存DataFrame库,支持惰性评估和并行执行,适用于处理1-100GB的数据集,用于ETL管道、数据清洗、数据分析、pandas迁移和数据管道优化,提高数据处理效率和性能。关键词:数据处理,DataFrame,Apache Arrow,ETL,数据工程,数据科学,并行执行,内存计算。

4.5

电子书文本提取器Skill ebook-extractor

这是一个Python工具技能,用于从EPUB、MOBI和PDF电子书中提取纯文本,支持自动化转换和分析,适用于数据处理、文本挖掘、电子书阅读和自动化处理。关键词:电子书提取、文本转换、Python脚本、数据处理、自动化工具、电子书分析。

4.5

数据摄入技能Skill ingesting-data

数据摄入技能专注于从多种源高效加载数据到数据库和系统的模式与实践。它涵盖ETL开发、云存储集成、API消费、流式数据处理等,支持批量处理和实时摄入,适用于数据工程、数据分析、ETL管道构建等场景。关键词:数据摄入、ETL开发、数据工程、云存储、API集成、实时数据处理、数据库迁移、更改数据捕获、ETL框架。

4.5

作业技能Skill job

starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。

4.5

JSON与CSV数据转换Skill json-and-csv-data-transformation

这个技能用于在JSON、CSV等数据格式之间进行转换,支持过滤、提取、映射、扁平化嵌套结构和聚合操作。适用于数据处理工作流,如API响应处理、ETL流程、数据清洗和报表生成,提升数据分析和集成效率。关键词:JSON转换, CSV转换, 数据过滤, 数据扁平化, ETL, 数据处理, 数据工程, API集成。

4.5

提取脚本技能Skill extract-script

提取脚本技能能够从 Mustache 或 SSP 模板自动生成 SQL DDL 脚本,适用于不同数据库平台,支持自定义提取、增量更新和审计功能,提升数据库脚本开发效率。关键词:提取脚本、Mustache 模板、SSP 模板、SQL DDL、数据库脚本生成、增量提取、审计模式。

4.5

连接加载技能Skill cnxload

此技能用于将Parquet、CSV或JSON文件直接加载到JDBC数据库表,提供快速数据导入功能,支持多种数据库驱动和并行写入选项,适用于数据集成、ETL开发和数据仓库场景,关键词包括:数据加载、JDBC、Parquet、CSV、JSON、数据库连接、ETL、批量处理。

4.5

CocoIndex数据索引框架Skill cocoindex

CocoIndex 是一个用于 AI 数据处理的实时数据转换框架,支持构建 ETL 工作流,包括文档嵌入到向量数据库、知识图谱构建、搜索索引创建等。关键功能包括增量处理、实时更新、多数据源和目标支持,适用于数据工程师和 AI 开发者进行高效数据转换和索引。关键词:数据转换、ETL、AI 数据处理、文档嵌入、向量数据库、知识图谱、实时索引。

4.5

Dask并行计算Skill dask

Dask是一个Python并行和分布式计算库,用于处理超出内存的大型数据集,并行化pandas和NumPy操作,支持ETL开发、数据工程和科学计算。关键词:Python、并行计算、分布式计算、大数据、数据处理、ETL、数据科学。