数据工程 Skill技能列表

4.5

数据建模Skill data-modeling

数据建模技能用于创建和文档化数据结构,包括实体关系图(ERD)、数据字典和概念/逻辑/物理模型。适用于数据库设计、数据架构规划,支持业务分析和系统实现。关键词:数据建模、ERD、实体关系图、数据字典、数据库设计、数据架构、数据工程。

4.5

数据迁移专家Skill data-migration-expert

数据迁移专家技能专注于确保数据库迁移、数据回填和模式变更中的数据完整性。通过验证ID映射、检查交换值、确保回滚安全性和制定验证计划,防止数据损坏。适用于涉及ID映射、列重命名或数据转换的任何迁移。关键词:数据迁移、数据完整性、数据库迁移、验证映射、回滚安全。

4.5

SQL专家Skill sql-pro

SQL专家技能提供跨主流数据库平台(PostgreSQL、MySQL、SQL Server、Oracle)的专业SQL开发、数据库设计、查询优化、性能调优和数据迁移服务。专注于复杂查询编写、执行计划分析、索引设计、存储过程开发和数据库架构优化,帮助企业提升数据处理效率与系统可扩展性。关键词:SQL开发,数据库设计,查询优化,性能调优,数据迁移,PostgreSQL,MySQL,SQL Server,Oracle,CTE,窗口函数,索引优化,执行计划分析。

4.5

高级数据工程师Skill senior-data-engineer

高级数据工程师技能专注于构建和管理企业级数据基础设施。核心能力包括设计和实施可扩展的数据管道、ETL/ELT系统,以及高效的数据处理工作流。精通Python、SQL、Spark、Airflow、dbt、Kafka等现代数据技术栈,涵盖数据建模、管道编排、数据质量保证和DataOps实践。适用于大数据处理、数据仓库建设、AI/ML数据供给、实时数据流处理和数据治理等场景,旨在为数据驱动型业务提供可靠、高性能的数据基础。关键词:数据工程,ETL,数据管道,数据架构,大数据,Spark,Airflow,数据建模,DataOps,数据基础设施。

4.5

URL抓取器Skill url-fetcher

该技能用于从指定网页URL自动抓取并提取干净的文本内容,去除HTML噪音,适用于数据收集、内容分析、文档处理和网络爬虫等场景,支持参数化设置以提高效率。关键词:网页抓取、文本提取、URL解析、HTML清理、数据获取、网络爬虫、内容分析、自动化工具。

4.5

网络爬虫Skill web-scraping

网络爬虫技能用于从网站提取数据,包括绕过反爬虫机制、内容提取、处理未记录API和毒丸检测。适用于数据采集、内容分析、社交媒体处理和SEO优化。关键词包括网络爬虫、数据提取、反爬虫、API爬取、毒丸检测、网页抓取、数据工程。

4.5

数据库工程精通Skill afrexai-database-engineer

提供全面的数据库设计、优化、迁移和运维指导,包括模式设计、索引策略、查询优化、数据库迁移、性能监控、备份与恢复、安全防护等关键领域的深入分析和最佳实践。

4.5

SQL查询入门Skill sql-query-starter

这个技能用于帮助初级开发者根据简单需求快速起草基本的SQL查询,包括SELECT语句、WHERE条件、ORDER BY排序、LIMIT限制和参数化查询,适用于数据库开发和数据工程场景。关键词:SQL查询、数据库开发、数据工程、参数化查询、SELECT语句、WHERE条件、ORDER BY排序、LIMIT限制。

4.5

SQL模式速查手册Skill sql-patterns

本技能提供SQL常用模式、公共表表达式(CTE)、窗口函数、JOIN类型、分页技巧、索引策略及反模式的快速参考指南。适用于数据库查询优化、数据分析、后端开发,帮助开发者编写高效SQL语句。关键词:SQL模式,CTE示例,窗口函数,SQL连接,索引策略,分页SQL,数据库优化,查询性能。

4.5

PostgreSQL查询专家Skill postgres-query-expert

这个技能是关于PostgreSQL 16数据库的全面指南,用于构建标准和高级SQL查询、优化性能、调试错误、管理数据库模式和结构内省。适用于数据库开发人员、数据工程师和数据分析师,提升数据库操作效率和数据处理能力。关键词:PostgreSQL、SQL查询、数据库优化、数据工程、模式管理、性能调优、SQL调试。

4.5

抓取文章Skill scrape-posts

此技能用于从Milan Jovanovic的.NET博客优化抓取新文章,通过预筛选列表页面,仅抓取新增或更新的内容,以减少API请求并提升效率。关键词:博客抓取、数据自动化、内容管理、SEO优化、网络爬虫、节省成本。

4.5

ZarrPython数据存储库Skill zarr-python

Zarr Python 是一个用于云存储的分块 N 维数组库,支持压缩、并行 I/O 和与 NumPy、Dask、Xarray 的集成,专为大规模科学计算和数据处理而设计。关键词:数据存储、并行计算、云计算、科学计算、大数据处理、Python 库。