数据工程 Skill技能列表

4.5

DAG生成技能Skill dag-generate

该技能用于从 Starlake 项目配置自动生成 Airflow 或 Dagster 的 DAG(有向无环图)文件,支持数据加载和变换任务的编排,适用于数据工程、ETL 开发和自动化工作流管理。关键词:DAG, Airflow, Dagster, Starlake, 数据工程, ETL, 任务编排, 工作流。

4.5

DAG部署技能Skill dag-deploy

DAG部署技能专用于自动化部署生成的DAG文件到目标目录,如Airflow DAGs文件夹,支持清理和文件组织,优化数据管道管理,适用于数据工程、ETL开发和DevOps场景,提升数据工作流效率。

4.5

比较Skill compare

此 Starlake compare 技能用于数据工程项目的版本对比,生成差异报告,支持 Git 集成、文件路径和标签比较,便于审查 schema 更改、配置更新和发布管理。关键词包括 Starlake、比较、差异报告、schema 变化、数据工程、Git 版本控制、ETL 开发、数据治理,提升项目管理效率。

4.5

列级血缘技能Skill col-lineage

这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。

4.5

引导技能Skill bootstrap

引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。

4.5

Python数据管道开发Skill python-pipeline

该技能用于构建模块化的Python数据处理管道,支持工作流协调、内容类型调度、Google Sheets/Drive API集成和AI服务应用。适用于内容处理、批量处理系统和数据工程场景,提高数据处理效率和自动化水平。关键词:Python、数据管道、模块化架构、调度器、Google Sheets集成、AI集成、ETL、数据处理、批量处理、工作流自动化。

4.5

Kafka流管理Skill kafka-streaming

这个技能用于管理和监控Kafka流处理平台,包括主题创建、消费者组状态检查、延迟分析、broker健康评估等。适用于数据工程师、DevOps工程师和系统管理员,帮助优化数据流管道和确保系统稳定性。关键词:Kafka, 流管理, 主题管理, 消费者组, 延迟监控, broker健康, 数据工程, 消息队列。

4.5

数据处理器Skill data-processor

数据处理器是一个用于处理和验证各种数据输入的工具,适用于数据清洗、验证和预处理。关键词包括数据处理、数据验证、Python工具、数据输入处理,方便SEO搜索和数据管理应用。

4.5

ZarrPython库技能Skill zarr-python

Zarr Python是一个用于存储和处理大规模N维数组的Python库,支持分块、压缩、并行I/O和云存储集成,与NumPy、Dask、Xarray兼容,适用于科学计算、数据工程和机器学习流水线。关键词:Zarr Python, 数据存储, 分块数组, 压缩, 云存储, 科学计算, 并行处理, Dask, Xarray

4.5

Dask并行计算库Skill dask

Dask是一个用于并行和分布式计算的Python库,能够处理超出内存的数据集,提供类似Pandas和NumPy的API,适用于大数据处理、数据工程和科学计算。关键词:并行计算、分布式计算、大数据处理、Python数据工程。

4.5

查询专家Skill query-expert

查询专家技能用于掌握和优化SQL及NoSQL数据库查询,生成高效查询、分析性能、设计索引并解决慢查询问题。关键词:数据库查询、SQL优化、性能分析、索引设计、查询调试、NoSQL、EXPLAIN计划、聚合管道、GraphQL、ETL开发。

4.5

PDF处理技能Skill pdf

PDF处理技能用于编程方式处理PDF文档,包括文本和表格提取、PDF创建、合并分割、表单处理以及自动化操作。关键词包括:PDF处理、文本提取、表格提取、Python库、自动化、数据提取、文档管理。