数据工程 Skill技能列表

4.5

Snakemake工作流管理器Skill snakemake-workflow-manager

Snakemake工作流管理器是一个用于生物信息学和数据分析领域的自动化流程管理工具。该技能支持基于规则的管道执行、DAG工作流调度、集群计算资源管理、Conda环境隔离、检查点恢复机制和性能基准收集。适用于构建可重复、可扩展的科研分析流程,特别适合高通量测序数据处理、批量数据分析和自动化报告生成等场景。 关键词:Snakemake工作流管理, 生物信息学流程自动化, 可重复研究, DAG任务调度, Conda环境管理, 集群计算, 数据分析管道, 工作流检查点, 基准测试, 报告生成

4.5

KafkaStreamsSkill kafka-streams

Kafka Streams是一个用于构建实时流处理应用程序的库,它提供了一个高级的抽象,允许开发者轻松地表达处理逻辑,同时确保数据的容错性和可扩展性。

4.5

Dask并行计算库Skill dask

Dask是一个用于并行和分布式计算的Python库,能够处理超出内存的数据集,提供类似Pandas和NumPy的API,适用于大数据处理、数据工程和科学计算。关键词:并行计算、分布式计算、大数据处理、Python数据工程。

4.5

PDF处理Skill pdf

PDF处理技能是一种使用Python库和工具进行PDF文档操作的技能,包括文本提取、表格提取、PDF创建、合并、分割、表单处理、OCR等。适用于数据提取、文档自动化、数据预处理等场景。关键词:PDF处理、文本提取、表格提取、OCR、Python、数据工程、文档自动化、PDF库。

4.5

Starlake配置技能(完整参考)Skill config

这个技能提供了Starlake数据管道配置的完整参考指南,涵盖环境变量配置、JSON模式验证、生产最佳实践等,适用于数据工程师、ETL开发人员和数据架构师,帮助构建高效的数据处理流程。关键词:Starlake,数据工程,ETL,配置,YAML,JSON模式,数据管道,最佳实践。

4.5

网页抓取技能Skill using-web-scraping

这个技能使用头less Chrome和DuckDuckGo进行网页抓取和搜索,专注于可靠导航、提取结构化文本、遵守robots.txt和速率限制。用于收集公开网页内容以进行摘要、元数据提取或链接发现。关键词:网页抓取、数据收集、Playwright、DuckDuckGo、自动化、数据提取、SEO优化。

4.5

SQL查询翻译器Skill query-translator

SQL查询翻译器是一个用于在不同数据库方言(如Oracle、PostgreSQL、MySQL、SQL Server)之间自动转换SQL查询的工具。它提供函数映射、语法翻译、性能提示转换和查询优化建议,是数据库迁移、云适配和系统重构的关键技能。关键词:SQL翻译,数据库迁移,方言转换,函数映射,查询优化,PostgreSQL,Oracle,MySQL,SQL Server,性能优化。

4.5

数据迁移验证器Skill data-migration-validator

数据迁移验证器是一个用于在数据库迁移过程中确保数据完整性的专业技能工具。它通过行数验证、校验和验证、样本数据对比、参照完整性检查和业务规则验证等多种方法,全面验证源数据和目标数据的一致性。该工具支持与Great Expectations、dbt测试、自定义SQL等多种数据质量工具的集成,并生成标准化的验证报告,帮助团队在迁移后快速确认数据准确性,降低数据丢失和损坏的风险。关键词:数据迁移验证、数据完整性检查、数据库迁移、数据质量验证、ETL验证、迁移后验证、数据核对、数据一致性检查。

4.5

DatabaseSchemaDocumentationSkill database-schema-documentation

提供数据库架构文档,包括实体关系图(ERD)、表定义、索引、约束和数据字典。用于数据库架构文档、ERD创建、数据字典编写、表关系文档、索引和约束文档、迁移文档和数据库设计规范。

4.5

时序数据库专家Skill timescaledb

Timescaledb技能是一个专注于PostgreSQL时序数据库扩展的AI助手。它提供全面的开发支持,涵盖超表管理、连续聚合、数据压缩、实时分析等核心功能。适用于数据库开发、时间序列数据处理、物联网数据分析、金融量化系统等场景。关键词:TimescaleDB, 时序数据库, PostgreSQL扩展, 时间序列分析, 超表, 数据压缩, 实时分析, 数据库优化, IoT数据处理, 量化金融数据存储。

4.5

模式推断Skill infer-schema

这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。

4.5

ESLoad技能Skill esload

这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。