数据科学 Skill技能列表

4.5

数据新鲜度检查技能Skill freshness

这个技能用于监控数据表的新鲜度,通过查询最后更新时间戳,并将结果存储在审计表中进行监控和报警。适用于数据治理、数据工程和云服务等领域。关键词:数据新鲜度、更新时间戳、数据监控、数据报警、数据治理、Starlake、ETL、数据仓库。

4.5

预加载技能Skill preload

该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。

4.5

Kafka数据加载技能Skill kafkaload

Kafka 数据加载技能是一个用于在 Apache Kafka 主题和文件系统之间高效传输数据的工具。它支持批处理和流式处理模式,提供数据转换功能,适用于数据集成、ETL 流程和大数据处理场景。关键词:Kafka、数据加载、数据卸载、批处理、流式处理、数据转换、ETL。

4.5

Mermaid.jsv11图表生成Skill mermaidjs-v11

Mermaid.js v11 是一款强大的图表生成工具,允许用户通过简单的文本语法创建多种图表,如流程图、序列图、类图等,支持浏览器渲染、命令行转换和JavaScript API集成,广泛应用于技术文档、系统架构设计和项目管理中,关键词包括数据可视化、图表制作、Mermaid.js、技术文档。

4.5

阶段技能Skill stage

阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。

4.5

Excel作业定义转YAML技能Skill xls2ymljob

这是一个用于数据工程的工具,能够将Excel电子表格中描述的任务定义高效转换为Starlake YAML配置文件,支持批量处理和策略集成,适用于ETL开发和数据治理。关键词:Excel, YAML, Starlake, 任务转换, ETL开发, 数据工程, 数据治理, 配置文件。

4.5

索引技能Skill index

索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。

4.5

验证技能Skill validate

验证技能用于验证Starlake项目配置的YAML文件语法、模式合规性、连接引用等,确保在运行时前捕获配置错误,提升数据治理和ETL流程的可靠性。关键词:验证、配置管理、YAML语法、Starlake工具、数据治理、ETL开发、错误预防。

4.5

YML到DDL技能Skill yml2ddl

yml2ddl技能是一个数据工程工具,用于从Starlake YAML定义自动生成SQL DDL(数据定义语言)语句,支持BigQuery、Snowflake、PostgreSQL等多种目标数据仓库。它通过类型映射简化数据库表结构的创建和管理,提升数据管道开发效率,适用于数据仓库建设和数据治理场景。关键词:SQL DDL, YAML, 数据仓库, 数据工程, 数据库管理, ETL开发, Starlake。

4.5

DAG生成技能Skill dag-generate

该技能用于从 Starlake 项目配置自动生成 Airflow 或 Dagster 的 DAG(有向无环图)文件,支持数据加载和变换任务的编排,适用于数据工程、ETL 开发和自动化工作流管理。关键词:DAG, Airflow, Dagster, Starlake, 数据工程, ETL, 任务编排, 工作流。

4.5

数据迁移Skill data-migration

数据迁移技能专注于安全、高效地执行数据库和数据系统的迁移工作,包括规划迁移策略、实施数据转换、确保零停机部署以及设计回滚机制,以维护数据完整性和系统稳定性。关键词:数据库迁移,数据转换,零停机,安全架构,回滚策略,数据完整性。

4.5

转换技能Skill transform

转换技能用于执行SQL或Python数据转换任务,支持从源表读取数据并写入目标表,具备依赖管理、多种写入策略和递归执行功能。适用于数据工程、ETL开发、数据仓库构建和数据处理流程,关键词包括SQL转换、Python脚本、数据管道、ETL工具、数据集成、数据科学、数据库管理。