数据工程 Skill技能列表

4.5

提取模式技能Skill extract-schema

这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。

4.5

DataEngineeringCommandCenterSkill afrexai-data-engineering

这是一套完整的数据工程指挥中心方法论,涵盖设计、构建、运营和扩展数据管道及基础设施。不依赖任何外部依赖,纯粹依靠代理技能。关键词包括数据架构评估、数据建模、管道设计模式、数据质量框架、性能优化、数据治理与目录、管道监控与告警、测试策略、成本优化、操作手册、高级模式。

4.5

数据转换Skill transforming-data

数据转换技能涉及使用ETL/ELT模式、SQL(如dbt)、Python库(如pandas、polars、PySpark)和编排工具(如Airflow)将原始数据处理成可用于分析的数据集,适用于数据管道构建、增量加载、性能优化和数据质量保障。关键词:数据转换、ETL开发、数据工程、数据管道、dbt、Airflow、SQL、Python、数据仓库。

4.5

DatabaseLockingStrategiesSkill DatabaseLockingStrategies

数据库锁定策略是用于管理共享数据并发访问的机制,确保数据完整性,防止多个事务同时以可能造成不一致的方式修改相同数据。关键概念包括并发控制、锁定类型(共享锁定、独占锁定)、锁定粒度(行级、页面级、表级锁定)以及多版本并发控制(MVCC)。此技能涉及数据库事务、锁定机制、隔离级别和死锁处理等。

4.5

ZarrPython数据存储库Skill zarr-python

Zarr Python 是一个用于云存储的分块 N 维数组库,支持压缩、并行 I/O 和与 NumPy、Dask、Xarray 的集成,专为大规模科学计算和数据处理而设计。关键词:数据存储、并行计算、云计算、科学计算、大数据处理、Python 库。

4.5

PDF处理Skill pdf

PDF处理技能用于通过编程方式提取PDF文档中的文本和表格,创建、合并、分割PDF文件,以及填充表单。适用于文档自动化处理、数据提取和分析,常用于数据工程和软件开发场景。在股票量化交易中,此技能可辅助处理财务报告和交易文档,提取关键数据进行分析。关键词:PDF处理,文档提取,Python库,数据工程,自动化处理,量化交易,数据提取。

4.5

时间序列数据库技术Skill using-timeseries-databases

时间序列数据库技术用于高效存储和查询时间戳数据,如金融交易数据、物联网传感器、监控指标和日志。该技能涉及数据库选择(包括TimescaleDB、InfluxDB、ClickHouse、QuestDB)、连续聚合、降采样(LTTB算法)和保留策略优化,适用于构建实时仪表板、监控系统、物联网平台和金融应用。关键词:时间序列数据库、数据存储、查询优化、数据库技术、降采样、连续聚合。

4.5

SQL开发Skill sql

SQL开发是一种专注于使用结构化查询语言进行数据库管理的技能,包括编写高效查询、优化执行计划、设计数据库模式和索引策略。它支持复杂操作如窗口函数、公共表表达式和递归查询,广泛应用于数据工程、后端开发和数据分析领域。关键词:SQL、数据库、查询优化、模式设计、数据工程、ETL、数据仓库。

4.5

预加载技能Skill preload

该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。

4.5

MongoDB数据库操作技能Skill mongodb

这个技能提供MongoDB数据库的全面指导,涵盖文档操作、查询、聚合、索引和最佳实践,适用于处理MongoDB数据、编写高效查询和优化数据库设计的场景。关键词包括MongoDB、数据库管理、文档存储、NoSQL、查询优化、索引策略。

4.5

Python数据管道开发Skill python-pipeline

该技能用于构建模块化的Python数据处理管道,支持工作流协调、内容类型调度、Google Sheets/Drive API集成和AI服务应用。适用于内容处理、批量处理系统和数据工程场景,提高数据处理效率和自动化水平。关键词:Python、数据管道、模块化架构、调度器、Google Sheets集成、AI集成、ETL、数据处理、批量处理、工作流自动化。

4.5

数据迁移Skill data-migration

数据迁移技能专注于安全、高效地执行数据库和数据系统的迁移工作,包括规划迁移策略、实施数据转换、确保零停机部署以及设计回滚机制,以维护数据完整性和系统稳定性。关键词:数据库迁移,数据转换,零停机,安全架构,回滚策略,数据完整性。