数据科学 Skill技能列表

4.5

Excel作业定义转YAML技能Skill xls2ymljob

这是一个用于数据工程的工具,能够将Excel电子表格中描述的任务定义高效转换为Starlake YAML配置文件,支持批量处理和策略集成,适用于ETL开发和数据治理。关键词:Excel, YAML, Starlake, 任务转换, ETL开发, 数据工程, 数据治理, 配置文件。

4.5

Excel转YML转换器Skill xls2yml

Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。

4.5

验证技能Skill validate

验证技能用于验证Starlake项目配置的YAML文件语法、模式合规性、连接引用等,确保在运行时前捕获配置错误,提升数据治理和ETL流程的可靠性。关键词:验证、配置管理、YAML语法、Starlake工具、数据治理、ETL开发、错误预防。

4.5

转换技能Skill transform

转换技能用于执行SQL或Python数据转换任务,支持从源表读取数据并写入目标表,具备依赖管理、多种写入策略和递归执行功能。适用于数据工程、ETL开发、数据仓库构建和数据处理流程,关键词包括SQL转换、Python脚本、数据管道、ETL工具、数据集成、数据科学、数据库管理。

4.5

表依赖关系生成器Skill table-dependencies

该技能用于根据数据库表中的外键关系,自动生成可视化表依赖图,帮助理解数据模型结构。关键词:表依赖、实体关系图、数据模型、可视化、YAML配置、数据库设计、数据工程。

4.5

阶段技能Skill stage

阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。

4.5

预加载技能Skill preload

该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。

4.5

Parquet转CSV工具Skill parquet2csv

这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。

4.5

数据加载技能Skill load

此技能用于将数据文件从待处理区域高效加载到数据仓库中,实现ETL(提取、转换、加载)过程。它包括数据验证以符合模式、应用写策略(如APPEND、OVERWRITE)、强制执行数据质量期望(如唯一性检查)和隐私转换。支持多种文件格式(JSON、CSV、XML),并通过配置灵活管理数据加载。关键词:数据加载,ETL,数据仓库,数据验证,写策略,数据质量,隐私转换,文件格式,配置管理。

4.5

数据血缘技能Skill lineage

此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。

4.5

Kafka数据加载技能Skill kafkaload

Kafka 数据加载技能是一个用于在 Apache Kafka 主题和文件系统之间高效传输数据的工具。它支持批处理和流式处理模式,提供数据转换功能,适用于数据集成、ETL 流程和大数据处理场景。关键词:Kafka、数据加载、数据卸载、批处理、流式处理、数据转换、ETL。

4.5

作业技能Skill job

starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。