数据工程 Skill技能列表

4.5

时间序列数据库技术Skill using-timeseries-databases

时间序列数据库技术用于高效存储和查询时间戳数据,如金融交易数据、物联网传感器、监控指标和日志。该技能涉及数据库选择(包括TimescaleDB、InfluxDB、ClickHouse、QuestDB)、连续聚合、降采样(LTTB算法)和保留策略优化,适用于构建实时仪表板、监控系统、物联网平台和金融应用。关键词:时间序列数据库、数据存储、查询优化、数据库技术、降采样、连续聚合。

4.5

数据流设计Skill data-flow

数据流设计技能用于根据需求描述设计和实施数据管道架构,包括数据源集成、转换处理、目标系统部署,支持批处理、流处理、Lambda、Kappa等多种模式,适用于数据仓库、数据湖、机器学习、商业智能等应用场景。关键词:数据管道、ETL、流处理、数据架构、数据工程、Spark、Flink、Kafka、数据湖仓。

4.5

SQL查询翻译器Skill query-translator

SQL查询翻译器是一个用于在不同数据库方言(如Oracle、PostgreSQL、MySQL、SQL Server)之间自动转换SQL查询的工具。它提供函数映射、语法翻译、性能提示转换和查询优化建议,是数据库迁移、云适配和系统重构的关键技能。关键词:SQL翻译,数据库迁移,方言转换,函数映射,查询优化,PostgreSQL,Oracle,MySQL,SQL Server,性能优化。

4.5

数据迁移验证器Skill data-migration-validator

数据迁移验证器是一个用于在数据库迁移过程中确保数据完整性的专业技能工具。它通过行数验证、校验和验证、样本数据对比、参照完整性检查和业务规则验证等多种方法,全面验证源数据和目标数据的一致性。该工具支持与Great Expectations、dbt测试、自定义SQL等多种数据质量工具的集成,并生成标准化的验证报告,帮助团队在迁移后快速确认数据准确性,降低数据丢失和损坏的风险。关键词:数据迁移验证、数据完整性检查、数据库迁移、数据质量验证、ETL验证、迁移后验证、数据核对、数据一致性检查。

4.5

弹性搜索Skill elasticsearch

提供关于Elasticsearch的全面指导,帮助用户掌握索引创建、数据搜索、聚合分析、映射配置和集群管理等核心功能。适用于开发搜索应用、进行大数据分析或管理分布式搜索系统。关键词:Elasticsearch, 搜索, 索引, 聚合, 映射, 集群管理, 数据分析。

4.5

比较Skill compare

此 Starlake compare 技能用于数据工程项目的版本对比,生成差异报告,支持 Git 集成、文件路径和标签比较,便于审查 schema 更改、配置更新和发布管理。关键词包括 Starlake、比较、差异报告、schema 变化、数据工程、Git 版本控制、ETL 开发、数据治理,提升项目管理效率。

4.5

DatabaseLockingStrategiesSkill DatabaseLockingStrategies

数据库锁定策略是用于管理共享数据并发访问的机制,确保数据完整性,防止多个事务同时以可能造成不一致的方式修改相同数据。关键概念包括并发控制、锁定类型(共享锁定、独占锁定)、锁定粒度(行级、页面级、表级锁定)以及多版本并发控制(MVCC)。此技能涉及数据库事务、锁定机制、隔离级别和死锁处理等。

4.5

引导技能Skill bootstrap

引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。

4.5

Parquet转CSV工具Skill parquet2csv

这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。

4.5

数据库技能Skill databases

该技能专注于MongoDB和PostgreSQL数据库的管理与操作,涵盖数据建模、查询编写、性能优化、索引管理、数据库迁移、备份恢复策略等关键方面。适用于数据库管理员、后端开发者和数据工程师,提升数据库处理效率和系统稳定性。关键词:MongoDB, PostgreSQL, 数据库管理, 查询优化, 数据建模, 性能调优

4.5

ESLoad技能Skill esload

这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。

4.5

数据转换Skill transforming-data

数据转换技能涉及使用ETL/ELT模式、SQL(如dbt)、Python库(如pandas、polars、PySpark)和编排工具(如Airflow)将原始数据处理成可用于分析的数据集,适用于数据管道构建、增量加载、性能优化和数据质量保障。关键词:数据转换、ETL开发、数据工程、数据管道、dbt、Airflow、SQL、Python、数据仓库。