数据湖平台 data-lake-platform

数据湖平台技能用于构建和操作生产级数据湖与数据湖屋,涵盖数据摄取、转换、存储、查询和服务,支持批处理、流式处理和治理功能,关键词:数据湖、数据湖屋、数据工程、大数据、分析平台、数据治理、摄取、转换、存储、查询。

数据工程 0 次安装 0 次浏览 更新于 3/7/2026

名称: 数据湖平台 描述: “数据湖和数据湖屋平台模式:摄取/CDC、转换、开放表格式(Iceberg/Delta/Hudi)、查询和服务引擎(Trino/ClickHouse/DuckDB)、编排、治理/血缘、成本和操作。自托管和云选项。”

数据湖平台

构建和操作生产级数据湖和数据湖屋:可靠地摄取、转换、存储开放格式数据并提供分析服务。

何时使用

  • 设计数据湖/数据湖屋架构
  • 设置摄取管道(批处理、增量、CDC)
  • 构建SQL转换层(SQLMesh、dbt)
  • 选择表格式和目录(Iceberg、Delta、Hudi)
  • 部署查询/服务引擎(Trino、ClickHouse、DuckDB)
  • 实现流式管道(Kafka、Flink)
  • 设置编排(Dagster、Airflow、Prefect)
  • 添加治理、血缘、数据质量和成本控制

初步问题

  1. 批处理、流式还是混合?新鲜度SLO是多少?
  2. 仅追加 vs 更新/删除(CDC)?需要时间旅行吗?
  3. 主要查询模式:BI仪表板(高并发)、临时连接、嵌入式分析?
  4. PII/合规性:行/列级访问、保留、审计日志?
  5. 平台约束:自托管 vs 云、首选引擎、团队优势?

默认基线(良好起点)

  • 存储:对象存储 + 开放表格式(通常为Iceberg)
  • 目录:REST/Hive/Glue/Nessie/Unity(匹配您的平台)
  • 转换:SQLMesh或dbt(选择一个并标准化)
  • 湖查询:Trino(或Spark用于重度计算/ML工作负载)
  • 服务(可选):ClickHouse/StarRocks/Doris用于低延迟BI
  • 治理:DataHub/OpenMetadata + OpenLineage
  • 编排:Dagster/Airflow/Prefect

工作流程

  1. 选择表格式 + 目录:references/storage-formats.md(使用 assets/cross-platform/template-schema-evolution.mdassets/cross-platform/template-partitioning-strategy.md
  2. 设计摄取(批处理/增量/CDC):references/ingestion-patterns.md(使用 assets/cross-platform/template-ingestion-governance-checklist.mdassets/cross-platform/template-incremental-loading.md
  3. 设计转换(青铜/白银/黄金或数据产品):references/transformation-patterns.md(使用 assets/cross-platform/template-data-pipeline.md
  4. 选择湖查询 vs 服务引擎:references/query-engine-patterns.md
  5. 添加治理、血缘和质量门:references/governance-catalog.md(使用 assets/cross-platform/template-data-quality-governance.mdassets/cross-platform/template-data-quality.md
  6. 计划操作 + 成本控制:references/operational-playbook.mdreferences/cost-optimization.md(使用 assets/cross-platform/template-data-quality-backfill-runbook.mdassets/cross-platform/template-cost-optimization.md

架构模式

  • 奖牌(青铜/白银/黄金):references/architecture-patterns.md
  • 数据网格(领域自有数据产品):references/architecture-patterns.md
  • 流式优先(Kappa):references/streaming-patterns.md
  • 图/Mermaid片段:references/overview.md

快速开始

dlt + ClickHouse

pip install "dlt[clickhouse]"
dlt init rest_api clickhouse
python pipeline.py

SQLMesh + DuckDB

pip install sqlmesh
sqlmesh init duckdb
sqlmesh plan && sqlmesh run

可靠性和安全性

  • 提前定义数据契约和所有者
  • 为每个层级添加质量门(新鲜度、容量、模式、分布)
  • 使每个管道具有幂等性和可重新运行性(回填是正常的)
  • 将访问控制和审计日志视为一等要求

避免

  • 跳过验证以“快速前进”
  • 存储PII而无访问控制
  • 无法安全重新运行的管道
  • 无版本控制的手动模式更改

资源

资源 目的
references/overview.md 图和决策流
references/architecture-patterns.md 奖牌、数据网格
references/ingestion-patterns.md dlt vs Airbyte, CDC
references/transformation-patterns.md SQLMesh vs dbt
references/storage-formats.md Iceberg vs Delta
references/query-engine-patterns.md ClickHouse, DuckDB
references/streaming-patterns.md Kafka, Flink
references/orchestration-patterns.md Dagster, Airflow
references/bi-visualization-patterns.md Metabase, Superset
references/cost-optimization.md 成本杠杆和维护
references/operational-playbook.md 监控和事件响应
references/governance-catalog.md 目录、血缘、访问控制

模板

模板 目的
assets/cross-platform/template-medallion-architecture.md 基线青铜/白银/黄金计划
assets/cross-platform/template-data-pipeline.md 端到端管道框架
assets/cross-platform/template-ingestion-governance-checklist.md 源入职清单
assets/cross-platform/template-incremental-loading.md 增量 + 回填计划
assets/cross-platform/template-schema-evolution.md 模式变更规则
assets/cross-platform/template-cost-optimization.md 成本控制清单
assets/cross-platform/template-data-quality-governance.md 质量契约 + SLOs
assets/cross-platform/template-data-quality-backfill-runbook.md 回填事件/运行手册

相关技能

技能 目的
ai-mlops ML部署
ai-ml-data-science 特征工程
data-sql-optimization OLTP优化