name: etl-pipeline-builder description: 构建和管理用于数据迁移的ETL管道,支持转换、CDC和监控 allowed-tools: [“Bash”, “Read”, “Write”, “Grep”, “Glob”, “Edit”]
ETL管道构建器技能
构建和管理用于数据迁移的ETL(提取、转换、加载)管道,支持增量加载、CDC和全面的监控。
目的
为以下场景创建数据管道:
- 源到目标映射
- 转换定义
- 增量加载设置
- CDC配置
- 管道监控
能力
1. 源到目标映射
- 定义列映射
- 处理模式差异
- 配置数据类型转换
- 管理衍生列
2. 转换定义
- 数据类型转换
- 值映射
- 聚合
- 查找和丰富
3. 增量加载设置
- 定义水印
- 配置增量列
- 处理删除
- 管理合并逻辑
4. CDC配置
- 基于日志的CDC
- 基于触发器的CDC
- 基于时间戳的CDC
- 全量加载比较
5. 错误处理
- 定义重试策略
- 配置死信队列
- 处理数据质量问题
- 实现告警
6. 管道监控
- 跟踪管道指标
- 监控数据量
- 故障告警
- 生成SLA报告
工具集成
| 工具 | 类型 | 集成方法 |
|---|---|---|
| Apache Airflow | 编排 | Python |
| dbt | 转换 | CLI |
| Airbyte | 数据集成 | API |
| Fivetran | SaaS ETL | API |
| AWS DMS | 云迁移 | CLI |
| Debezium | CDC | 配置 |
输出模式
{
"pipelineId": "string",
"timestamp": "ISO8601",
"pipeline": {
"name": "string",
"source": {},
"target": {},
"mappings": [],
"transformations": [],
"schedule": "string"
},
"artifacts": {
"dagFile": "string",
"configFile": "string",
"sqlFiles": []
},
"deployment": {
"status": "string",
"url": "string"
}
}
与迁移流程的集成
- database-schema-migration: 数据移动
- cloud-migration: 云数据管道
- data-format-migration: 格式转换
相关技能
data-migration-validator: 验证schema-comparator: 模式映射
相关代理
database-migration-orchestrator: 管道编排data-architect-agent: 管道设计