ETL管道构建器Skill etl-pipeline-builder

ETL管道构建器是一个用于自动化构建和管理数据迁移管道的技能。它专注于数据提取、转换和加载(ETL)流程,支持增量加载、变更数据捕获(CDC)以及全面的监控告警功能。关键词:ETL开发,数据管道,数据迁移,CDC,增量加载,数据工程,数据集成,Airflow,dbt,数据仓库。

ETL开发 4 次安装 56 次浏览 更新于 2/23/2026

name: etl-pipeline-builder description: 构建和管理用于数据迁移的ETL管道,支持转换、CDC和监控 allowed-tools: [“Bash”, “Read”, “Write”, “Grep”, “Glob”, “Edit”]

ETL管道构建器技能

构建和管理用于数据迁移的ETL(提取、转换、加载)管道,支持增量加载、CDC和全面的监控。

目的

为以下场景创建数据管道:

  • 源到目标映射
  • 转换定义
  • 增量加载设置
  • CDC配置
  • 管道监控

能力

1. 源到目标映射

  • 定义列映射
  • 处理模式差异
  • 配置数据类型转换
  • 管理衍生列

2. 转换定义

  • 数据类型转换
  • 值映射
  • 聚合
  • 查找和丰富

3. 增量加载设置

  • 定义水印
  • 配置增量列
  • 处理删除
  • 管理合并逻辑

4. CDC配置

  • 基于日志的CDC
  • 基于触发器的CDC
  • 基于时间戳的CDC
  • 全量加载比较

5. 错误处理

  • 定义重试策略
  • 配置死信队列
  • 处理数据质量问题
  • 实现告警

6. 管道监控

  • 跟踪管道指标
  • 监控数据量
  • 故障告警
  • 生成SLA报告

工具集成

工具 类型 集成方法
Apache Airflow 编排 Python
dbt 转换 CLI
Airbyte 数据集成 API
Fivetran SaaS ETL API
AWS DMS 云迁移 CLI
Debezium CDC 配置

输出模式

{
  "pipelineId": "string",
  "timestamp": "ISO8601",
  "pipeline": {
    "name": "string",
    "source": {},
    "target": {},
    "mappings": [],
    "transformations": [],
    "schedule": "string"
  },
  "artifacts": {
    "dagFile": "string",
    "configFile": "string",
    "sqlFiles": []
  },
  "deployment": {
    "status": "string",
    "url": "string"
  }
}

与迁移流程的集成

  • database-schema-migration: 数据移动
  • cloud-migration: 云数据管道
  • data-format-migration: 格式转换

相关技能

  • data-migration-validator: 验证
  • schema-comparator: 模式映射

相关代理

  • database-migration-orchestrator: 管道编排
  • data-architect-agent: 管道设计