数据工程 Skill技能列表
MongoDB数据库操作技能Skill mongodb
这个技能提供MongoDB数据库的全面指导,涵盖文档操作、查询、聚合、索引和最佳实践,适用于处理MongoDB数据、编写高效查询和优化数据库设计的场景。关键词包括MongoDB、数据库管理、文档存储、NoSQL、查询优化、索引策略。
PDF处理Skill pdf
PDF处理技能用于通过编程方式提取PDF文档中的文本和表格,创建、合并、分割PDF文件,以及填充表单。适用于文档自动化处理、数据提取和分析,常用于数据工程和软件开发场景。在股票量化交易中,此技能可辅助处理财务报告和交易文档,提取关键数据进行分析。关键词:PDF处理,文档提取,Python库,数据工程,自动化处理,量化交易,数据提取。
查询构建器Skill query-builder
该技能是一个交互式数据库查询构建工具,用于自动生成优化的SQL和NoSQL查询语句,支持多种数据库和ORM,提高开发效率和查询性能。关键词包括数据库查询、SQL优化、NoSQL、ORM、性能调优、数据工程、后端开发。
SQL开发Skill sql
SQL开发是一种专注于使用结构化查询语言进行数据库管理的技能,包括编写高效查询、优化执行计划、设计数据库模式和索引策略。它支持复杂操作如窗口函数、公共表表达式和递归查询,广泛应用于数据工程、后端开发和数据分析领域。关键词:SQL、数据库、查询优化、模式设计、数据工程、ETL、数据仓库。
Scrapfly自动化Skill scrapfly-automation
该技能通过Rube MCP和Composio自动化Scrapfly网页抓取任务,提供工具发现、连接管理和执行功能,优化数据采集流程。关键词:Scrapfly自动化,Rube MCP,Composio,网页抓取,数据采集,自动化工具,数据工程。
预加载技能Skill preload
该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。
数据工程师Skill data-engineer
数据工程师技能专注于构建、维护和优化大规模数据处理系统与基础设施。核心能力包括设计可扩展的数据管道、实施ETL/ELT工作流、构建数据湖/数据仓库、进行实时流处理以及优化数据平台成本与性能。适用于企业级数据平台搭建、数据治理、数据迁移和现代化数据架构项目。关键词:数据工程,ETL,ELT,数据管道,数据仓库,数据湖,Airflow,Spark,Kafka,大数据处理,数据基础设施。
时序数据库技能Skill timescaledb
Timescaledb技能提供全面的时序数据库开发支持,涵盖超表管理、连续聚合、数据压缩和实时分析等核心功能。本技能专为数据库开发者、数据工程师和DevOps团队设计,包含官方文档、代码示例和最佳实践指南,帮助用户高效处理时间序列数据,优化查询性能,实现大规模时序数据存储与分析解决方案。
Kafka流管理Skill kafka-streaming
这个技能用于管理和监控Kafka流处理平台,包括主题创建、消费者组状态检查、延迟分析、broker健康评估等。适用于数据工程师、DevOps工程师和系统管理员,帮助优化数据流管道和确保系统稳定性。关键词:Kafka, 流管理, 主题管理, 消费者组, 延迟监控, broker健康, 数据工程, 消息队列。
引导技能Skill bootstrap
引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。
DatabasePerformanceDebuggingSkill database-performance-debugging
通过查询分析、索引优化和执行计划审查来调试数据库性能问题,识别并修复慢查询。
PDF处理Skill pdf
PDF处理技能涉及使用Python库(如pypdf、pdfplumber、reportlab)和命令行工具(如pdftotext、qpdf)来处理PDF文档。包括提取文本和表格、创建新PDF、合并和拆分文档、处理表单、添加水印、密码保护等操作。适用于数据提取、文档自动化、报告生成等场景。关键词:PDF处理,文本提取,表格提取,Python,自动化,文档管理,SEO。