名称: 数据湖平台
描述: “数据湖和数据湖屋平台模式:摄取/CDC、转换、开放表格式(Iceberg/Delta/Hudi)、查询和服务引擎(Trino/ClickHouse/DuckDB)、编排、治理/血缘、成本和操作。自托管和云选项。”
数据湖平台
构建和操作生产级数据湖和数据湖屋:可靠地摄取、转换、存储开放格式数据并提供分析服务。
何时使用
- 设计数据湖/数据湖屋架构
- 设置摄取管道(批处理、增量、CDC)
- 构建SQL转换层(SQLMesh、dbt)
- 选择表格式和目录(Iceberg、Delta、Hudi)
- 部署查询/服务引擎(Trino、ClickHouse、DuckDB)
- 实现流式管道(Kafka、Flink)
- 设置编排(Dagster、Airflow、Prefect)
- 添加治理、血缘、数据质量和成本控制
初步问题
- 批处理、流式还是混合?新鲜度SLO是多少?
- 仅追加 vs 更新/删除(CDC)?需要时间旅行吗?
- 主要查询模式:BI仪表板(高并发)、临时连接、嵌入式分析?
- PII/合规性:行/列级访问、保留、审计日志?
- 平台约束:自托管 vs 云、首选引擎、团队优势?
默认基线(良好起点)
- 存储:对象存储 + 开放表格式(通常为Iceberg)
- 目录:REST/Hive/Glue/Nessie/Unity(匹配您的平台)
- 转换:SQLMesh或dbt(选择一个并标准化)
- 湖查询:Trino(或Spark用于重度计算/ML工作负载)
- 服务(可选):ClickHouse/StarRocks/Doris用于低延迟BI
- 治理:DataHub/OpenMetadata + OpenLineage
- 编排:Dagster/Airflow/Prefect
工作流程
- 选择表格式 + 目录:
references/storage-formats.md(使用 assets/cross-platform/template-schema-evolution.md 和 assets/cross-platform/template-partitioning-strategy.md)
- 设计摄取(批处理/增量/CDC):
references/ingestion-patterns.md(使用 assets/cross-platform/template-ingestion-governance-checklist.md 和 assets/cross-platform/template-incremental-loading.md)
- 设计转换(青铜/白银/黄金或数据产品):
references/transformation-patterns.md(使用 assets/cross-platform/template-data-pipeline.md)
- 选择湖查询 vs 服务引擎:
references/query-engine-patterns.md
- 添加治理、血缘和质量门:
references/governance-catalog.md(使用 assets/cross-platform/template-data-quality-governance.md 和 assets/cross-platform/template-data-quality.md)
- 计划操作 + 成本控制:
references/operational-playbook.md 和 references/cost-optimization.md(使用 assets/cross-platform/template-data-quality-backfill-runbook.md 和 assets/cross-platform/template-cost-optimization.md)
架构模式
- 奖牌(青铜/白银/黄金):
references/architecture-patterns.md
- 数据网格(领域自有数据产品):
references/architecture-patterns.md
- 流式优先(Kappa):
references/streaming-patterns.md
- 图/Mermaid片段:
references/overview.md
快速开始
dlt + ClickHouse
pip install "dlt[clickhouse]"
dlt init rest_api clickhouse
python pipeline.py
SQLMesh + DuckDB
pip install sqlmesh
sqlmesh init duckdb
sqlmesh plan && sqlmesh run
可靠性和安全性
做
- 提前定义数据契约和所有者
- 为每个层级添加质量门(新鲜度、容量、模式、分布)
- 使每个管道具有幂等性和可重新运行性(回填是正常的)
- 将访问控制和审计日志视为一等要求
避免
- 跳过验证以“快速前进”
- 存储PII而无访问控制
- 无法安全重新运行的管道
- 无版本控制的手动模式更改
资源
模板
相关技能