数据流设计Skill data-flow

数据流设计技能用于根据需求描述设计和实施数据管道架构,包括数据源集成、转换处理、目标系统部署,支持批处理、流处理、Lambda、Kappa等多种模式,适用于数据仓库、数据湖、机器学习、商业智能等应用场景。关键词:数据管道、ETL、流处理、数据架构、数据工程、Spark、Flink、Kafka、数据湖仓。

数据工程 0 次安装 0 次浏览 更新于 3/11/2026

name: 数据流 description: 为给定的数据流场景设计数据管道架构 allowed-tools: Read, Glob, Grep, Task argument-hint: “<description>”

数据流设计命令

基于需求描述设计数据管道架构。

用法

/sd:data-flow <description>

参数

  • description(必需):数据流需求的自然语言描述
    • 包括:数据源、目的地、转换、延迟需求
    • 提及任何约束:成本、团队专业知识、现有基础设施

示例

/sd:data-flow 从网络和移动端实时追踪客户活动到分析仪表板

/sd:data-flow 从5个PostgreSQL数据库批量ETL到Snowflake用于BI报告

/sd:data-flow 从IoT传感器事件流处理,要求10ms延迟用于异常检测

/sd:data-flow 迁移遗留Oracle数据仓库到云湖仓架构

工作流程

  1. 解析需求 从描述中提取:

    • 数据源和类型
    • 容量和速度估计
    • 延迟需求
    • 转换复杂度
    • 目标系统/使用案例
  2. 启动数据架构师代理 使用data-architect代理设计管道。代理将:

    • 推荐合适的架构(湖/湖仓/仓库/网格)
    • 选择管道模式(批处理/流处理/混合)
    • 提议技术栈
    • 设计数据流阶段
  3. 呈现架构 显示设计包括:

    • 架构图(ASCII)
    • 技术推荐及理由
    • 管道阶段分解
    • 数据质量策略
    • 成本和风险考虑

架构模式

命令可能推荐:

数据平台类型

  • 数据仓库:用于结构化BI/报告
  • 数据湖:用于ML和多样化数据类型
  • 数据湖仓:用于统一BI和ML
  • 数据网格:用于去中心化领域所有权

管道模式

  • 批处理ETL/ELT:计划性批量处理
  • 流处理:实时事件处理
  • Lambda:批处理 + 速度层
  • Kappa:仅流处理并支持重放

处理框架

  • Spark:大规模批处理和流处理
  • Flink:低延迟流处理
  • dbt:基于SQL的转换
  • Kafka:事件流主干

输出

命令产生一份全面的设计文档,包括:

  • 需求总结
  • 推荐架构及理由
  • 架构图
  • 技术栈推荐
  • 管道设计(阶段、转换)
  • 数据质量策略
  • 迁移路径(如果适用)
  • 成本考虑
  • 风险分析