数据工程 Skill技能列表
数据库技能Skill databases
该技能专注于MongoDB和PostgreSQL数据库的管理与操作,涵盖数据建模、查询编写、性能优化、索引管理、数据库迁移、备份恢复策略等关键方面。适用于数据库管理员、后端开发者和数据工程师,提升数据库处理效率和系统稳定性。关键词:MongoDB, PostgreSQL, 数据库管理, 查询优化, 数据建模, 性能调优
Excel转YML转换器Skill xls2yml
Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。
阶段技能Skill stage
阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。
预加载技能Skill preload
该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。
Parquet转CSV工具Skill parquet2csv
这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。
数据血缘技能Skill lineage
此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。
模式推断Skill infer-schema
这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。
索引技能Skill index
索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。
提取模式技能Skill extract-schema
这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。
提取BigQuery架构Skill extract-bq-schema
此技能用于直接从Google BigQuery数据集中提取表架构,并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建,提升元数据管理效率。关键词:BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。
ESLoad技能Skill esload
这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。
DAG生成技能Skill dag-generate
该技能用于从 Starlake 项目配置自动生成 Airflow 或 Dagster 的 DAG(有向无环图)文件,支持数据加载和变换任务的编排,适用于数据工程、ETL 开发和自动化工作流管理。关键词:DAG, Airflow, Dagster, Starlake, 数据工程, ETL, 任务编排, 工作流。