name: CDC 模式实施器 description: 为实时数据集成实施变更数据捕获模式 version: 1.0.0 category: 数据集成 skillId: SK-DEA-013 allowed-tools:
- Read
- Write
- Edit
- Glob
- Grep
- Bash
CDC 模式实施器
概述
为实时数据集成实施变更数据捕获模式。此技能提供跨各种数据库和流式处理平台的 CDC 配置和实施专业知识。
能力
- Debezium 连接器配置
- CDC 模式选择(基于日志、基于触发器、基于时间戳)
- 初始快照策略
- 模式变更处理
- 精确一次交付配置
- 接收器连接器设置
- 墓碑记录处理
- CDC 监控设置
输入模式
{
"sourceDatabase": {
"type": "postgres|mysql|oracle|sqlserver",
"connection": "object"
},
"tables": ["string"],
"targetSystem": "kafka|kinesis|pubsub",
"requirements": {
"latencyMs": "number",
"exactlyOnce": "boolean"
}
}
输出模式
{
"connectorConfig": "object",
"snapshotStrategy": "object",
"schemaConfig": "object",
"monitoringConfig": "object",
"documentation": "string"
}
目标流程
- ETL/ELT 管道
- 流式处理管道
- 数据仓库设置
使用指南
- 识别用于 CDC 的源数据库和表
- 定义目标流式处理系统
- 指定延迟和交付保证
- 为初始加载配置适当的快照策略
最佳实践
- 尽可能使用基于日志的 CDC,以最小化对源的影响
- 针对大表仔细规划初始快照策略
- 实施适当的错误处理和死信队列
- 监控复制延迟和连接器健康状况
- 在生产前测试模式演化处理