数据工程 - SkillsBot AI Skill技能库

热门搜索：openclaw springboot vue react 短视频智能体 rag 爬虫量化区块链比特币

数据工程 Skill技能列表

模式推断Skill infer-schema

这个技能用于从数据文件（如CSV、JSON、XML、Parquet）中自动推断出Starlake表的模式，并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程，帮助数据团队快速建立数据结构。关键词：数据模式推断，ETL开发，YAML配置，文件分析，元数据生成。

安装

⚡

4.5

索引技能Skill index

索引技能是一个命令行工具，用于将数据索引到Elasticsearch中，作为esload命令的别名，适用于数据加载、搜索优化和数据管道集成。关键词：数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。

安装

⚡

4.5

提取模式技能Skill extract-schema

这个技能用于从JDBC数据库提取数据库表模式（如列名、类型、约束），并生成Starlake YAML配置文件，是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括：数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。

安装

⚡

4.5

提取BigQuery架构Skill extract-bq-schema

此技能用于直接从Google BigQuery数据集中提取表架构，并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建，提升元数据管理效率。关键词：BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。

安装

⚡

4.5

DAG部署技能Skill dag-deploy

DAG部署技能专用于自动化部署生成的DAG文件到目标目录，如Airflow DAGs文件夹，支持清理和文件组织，优化数据管道管理，适用于数据工程、ETL开发和DevOps场景，提升数据工作流效率。

安装

⚡

4.5

CSV数据整理专家Skill csv-data-wrangler

CSV数据整理专家是一个专注于高效处理、清洗和转换CSV文件的专业技能。它使用Python、DuckDB和命令行工具，解决大型CSV文件处理、编码问题、数据验证和格式转换等挑战。关键词：CSV处理、数据清洗、Python、DuckDB、大数据、表格数据、编码转换、数据验证、文件分块、SQL查询。

安装

⚡

4.5

数据工程师Skill data-engineer

数据工程师技能专注于构建、维护和优化大规模数据处理系统与基础设施。核心能力包括设计可扩展的数据管道、实施ETL/ELT工作流、构建数据湖/数据仓库、进行实时流处理以及优化数据平台成本与性能。适用于企业级数据平台搭建、数据治理、数据迁移和现代化数据架构项目。关键词：数据工程，ETL，ELT，数据管道，数据仓库，数据湖，Airflow，Spark，Kafka，大数据处理，数据基础设施。

安装

⚡

4.5

数据库优化器Skill database-optimizer

数据库优化器是一个专业的数据库性能调优工具，专注于查询优化、索引设计、执行计划分析和数据库配置调优。支持PostgreSQL、MySQL、MongoDB、Redis等主流数据库系统，通过系统化方法解决慢查询、高负载、连接超时等性能问题，实现亚秒级响应和最优资源利用率。关键词：数据库优化、查询性能调优、索引策略、执行计划分析、数据库配置、慢查询优化、OLTP性能、数据库监控、容量规划、水平扩展。

安装

⚡

4.5

创建Bauplan数据管道Skill creating-bauplan-pipelines

本技能是Bauplan数据工程平台的详细指南，用于创建和管理数据管道项目。它涵盖了从项目初始化、DAG（有向无环图）设计、SQL/Python模型编写、到严格模式验证和物化策略的全流程。核心功能包括：数据管道开发、ETL/ELT流程构建、数据转换模型（SQL/Python）、数据质量检查、I/O下推优化、分支安全管理以及自动化工作流。适用于数据工程师、数据分析师和开发人员构建可维护、高性能的数据处理流水线。

安装

⚡

4.5

WAP数据安全摄取技能Skill wap-ingestion

WAP数据安全摄取技能是一种基于写-审计-发布模式的数据工程解决方案，专门用于从AWS S3云存储安全导入数据到bauplan数据平台。该技能通过临时分支隔离、数据质量检查、原子性合并等机制，确保数据加载过程的安全可靠，防止脏数据污染生产环境。适用于金融风控、企业数据仓库、ETL流程、数据湖管理等场景，支持Parquet、CSV、JSONL等多种数据格式的安全摄取。

安装

⚡

4.5

DatabaseMigrationsSkill DatabaseMigrations

数据库迁移是用于模式演变和数据转换的数据库迁移策略和工具，它们帮助团队以受控、可复现的方式发展数据库结构，同时维护数据完整性并最小化停机时间。

安装

⚡

4.5

日志解析与导入SOPSkill "self/import/file_path"

此技能是定义和执行日志解析的标准操作程序（SOP），用于处理Apache、Nginx、Syslog、JSON和自定义等多种日志格式，通过数据类和LogEntry类表示解析后的日志条目。它帮助用户标准化日志处理流程，提高数据解析效率，便于数据收集和分析。关键词：日志解析、SOP、文件导入、Apache日志、Nginx日志、Syslog、JSON日志、自定义日志、数据工程、数据类、LogEntry。

安装