数据工程 Skill技能列表

4.5

数据处理器Skill data-processor

数据处理器是一个用于处理和验证各种数据输入的工具,适用于数据清洗、验证和预处理。关键词包括数据处理、数据验证、Python工具、数据输入处理,方便SEO搜索和数据管理应用。

4.5

Starlake配置技能(完整参考)Skill config

这个技能提供了Starlake数据管道配置的完整参考指南,涵盖环境变量配置、JSON模式验证、生产最佳实践等,适用于数据工程师、ETL开发人员和数据架构师,帮助构建高效的数据处理流程。关键词:Starlake,数据工程,ETL,配置,YAML,JSON模式,数据管道,最佳实践。

4.5

知识图谱构建器Skill knowledge-graph-builder

这个技能专注于设计和构建知识图谱,用于表示实体、关系和语义连接,支持Neo4j、RDF和属性图的查询模式,适用于数据集成、智能推荐、欺诈检测、知识管理等场景。关键词:知识图谱,图数据库,Cypher查询,SPARQL,图算法,数据建模,语义网络。

4.5

Postgresql技能Skill postgresql

全面协助PostgreSQL开发,由官方文档生成。

4.5

Dask分布式计算技能Skill dask

Dask是一个Python库,用于并行和分布式计算,支持处理超过内存限制的大数据工作流。适用于数据科学、机器学习、数据工程任务,如ETL、数据分析和大规模数值计算。关键词:分布式计算,大数据处理,Python,pandas,NumPy,并行处理,数据科学,机器学习,数据工程,ETL开发。

4.5

数据模式与知识建模Skill data-schema-knowledge-modeling

数据模式与知识建模是一种用于设计数据库模式、构建知识图谱和定义数据模型的技能。它涉及识别实体、属性和关系,指定约束和不变量,以实现正确的系统实施和数据集成。关键词包括数据库设计、数据模型、知识图谱、实体关系建模、数据治理、模式迁移和数据可视化,适用于数据工程、数据治理和架构设计等场景。

4.5

ClickHouse数据工程与分析技能Skill clickhouse-io

这个技能专注于使用ClickHouse列式数据库进行高性能数据分析和数据工程,涵盖表设计、查询优化、物化视图、批量插入和实时聚合等模式。它适用于大规模数据处理、实时OLAP分析,特别是在股票量化交易中用于数据处理、回测和风险评估,关键词包括ClickHouse、数据分析、数据工程、查询优化、物化视图、量化金融、OLAP、实时分析、大数据处理。

4.5

ApacheSpark优化器Skill ApacheSparkOptimizer

Apache Spark 优化器是一款专注于提升大数据处理效率的专业技能。它通过深度分析 Spark 作业的执行计划、数据分区和资源配置,提供针对性的代码优化、参数调优和策略建议,旨在显著降低作业运行时间、减少计算资源消耗并节约成本。核心功能包括数据倾斜治理、Shuffle 优化、缓存策略推荐和集群配置调优,适用于 ETL、流处理和数据迁移等多种大数据场景。关键词:Spark优化,大数据性能调优,分布式计算,ETL加速,成本节约,数据倾斜处理,执行计划分析。

4.5

数据迁移Skill data-migration

数据迁移技能专注于安全、高效地执行数据库和数据系统的迁移工作,包括规划迁移策略、实施数据转换、确保零停机部署以及设计回滚机制,以维护数据完整性和系统稳定性。关键词:数据库迁移,数据转换,零停机,安全架构,回滚策略,数据完整性。

4.5

数据迁移验证器Skill data-migration-validator

数据迁移验证器是一个用于在数据库迁移过程中确保数据完整性的专业技能工具。它通过行数验证、校验和验证、样本数据对比、参照完整性检查和业务规则验证等多种方法,全面验证源数据和目标数据的一致性。该工具支持与Great Expectations、dbt测试、自定义SQL等多种数据质量工具的集成,并生成标准化的验证报告,帮助团队在迁移后快速确认数据准确性,降低数据丢失和损坏的风险。关键词:数据迁移验证、数据完整性检查、数据库迁移、数据质量验证、ETL验证、迁移后验证、数据核对、数据一致性检查。

4.5

SQL查询写作技能Skill query-writing

此技能专注于SQL查询的编写和执行,覆盖从基础单表查询到高级多表JOIN和聚合操作,适用于数据分析、数据工程和数据库管理领域,关键词:SQL查询、数据分析、数据库、数据工程、商业智能。

4.5

时间序列数据库技术Skill using-timeseries-databases

时间序列数据库技术用于高效存储和查询时间戳数据,如金融交易数据、物联网传感器、监控指标和日志。该技能涉及数据库选择(包括TimescaleDB、InfluxDB、ClickHouse、QuestDB)、连续聚合、降采样(LTTB算法)和保留策略优化,适用于构建实时仪表板、监控系统、物联网平台和金融应用。关键词:时间序列数据库、数据存储、查询优化、数据库技术、降采样、连续聚合。