ETL开发 Skill技能列表
ETL管道构建器Skill etl-pipeline-builder
ETL管道构建器是一个用于自动化构建和管理数据迁移管道的技能。它专注于数据提取、转换和加载(ETL)流程,支持增量加载、变更数据捕获(CDC)以及全面的监控告警功能。关键词:ETL开发,数据管道,数据迁移,CDC,增量加载,数据工程,数据集成,Airflow,dbt,数据仓库。
ETL/ELT数据管道模式Skill etl-elt-patterns
本技能详细介绍了ETL和ELT数据管道模式,包括设计、实施、优化和数据质量控制,适用于数据工程和数据分析,关键词包括ETL、ELT、数据管道、数据转换、数据仓库、数据质量、现代数据栈。
数据提取Skill extract-data
数据提取技能用于从数据库表中高效提取数据到CSV或Parquet文件,支持全量、增量提取,并行处理,以及灵活的过滤选项,适用于数据工程和ETL流程,关键词包括数据提取、数据库、CSV、Parquet、ETL、数据工程、增量提取、并行处理。
Polars数据处理库Skill polars
Polars是一个基于Apache Arrow的快速内存DataFrame库,支持惰性评估和并行执行,适用于处理1-100GB的数据集,用于ETL管道、数据清洗、数据分析、pandas迁移和数据管道优化,提高数据处理效率和性能。关键词:数据处理,DataFrame,Apache Arrow,ETL,数据工程,数据科学,并行执行,内存计算。
自动加载Skill autoload
自动加载技能通过监控传入目录,自动推断数据文件的模式,生成配置文件,并将数据高效加载到数据仓库中,适用于快速数据集成和ETL流程优化,关键词包括:自动加载、模式推断、数据仓库、ETL、数据工程。
Excel作业定义转YAML技能Skill xls2ymljob
这是一个用于数据工程的工具,能够将Excel电子表格中描述的任务定义高效转换为Starlake YAML配置文件,支持批量处理和策略集成,适用于ETL开发和数据治理。关键词:Excel, YAML, Starlake, 任务转换, ETL开发, 数据工程, 数据治理, 配置文件。
转换技能Skill transform
转换技能用于执行SQL或Python数据转换任务,支持从源表读取数据并写入目标表,具备依赖管理、多种写入策略和递归执行功能。适用于数据工程、ETL开发、数据仓库构建和数据处理流程,关键词包括SQL转换、Python脚本、数据管道、ETL工具、数据集成、数据科学、数据库管理。
数据加载技能Skill load
此技能用于将数据文件从待处理区域高效加载到数据仓库中,实现ETL(提取、转换、加载)过程。它包括数据验证以符合模式、应用写策略(如APPEND、OVERWRITE)、强制执行数据质量期望(如唯一性检查)和隐私转换。支持多种文件格式(JSON、CSV、XML),并通过配置灵活管理数据加载。关键词:数据加载,ETL,数据仓库,数据验证,写策略,数据质量,隐私转换,文件格式,配置管理。
Kafka数据加载技能Skill kafkaload
Kafka 数据加载技能是一个用于在 Apache Kafka 主题和文件系统之间高效传输数据的工具。它支持批处理和流式处理模式,提供数据转换功能,适用于数据集成、ETL 流程和大数据处理场景。关键词:Kafka、数据加载、数据卸载、批处理、流式处理、数据转换、ETL。
作业技能Skill job
starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。
摄取技能Skill ingest
摄取技能是一个数据处理命令,用于从指定文件路径直接加载数据到数据域的表中。适用于程序化或API驱动的数据摄取场景,支持ETL开发、数据工程、数据治理等。关键词:数据摄取、文件加载、ETL工具、数据管道、数据处理、量化金融、证券投资。
提取技能Skill extract
提取技能是Starlake工具中的一项功能,用于从JDBC数据库源提取模式和数据。它将数据库模式的元数据提取为YAML文件,并将实际数据提取到文件中。这个技能结合了模式提取和数据提取,是一个方便的ETL命令,适用于数据工程、数据仓库和ETL开发工作流,帮助自动化数据处理任务。关键词:数据提取,数据库模式,JDBC,ETL,数据工程,数据仓库,Starlake。