名称: 数据湖平台描述: “数据湖和数据湖屋平台模式：摄取/CDC、转换、开放表格式（Iceberg/Delta/Hudi）、查询和服务引擎（Trino/ClickHouse/DuckDB）、编排、治理/血缘、成本和操作。自托管和云选项。”

数据湖平台

构建和操作生产级数据湖和数据湖屋：可靠地摄取、转换、存储开放格式数据并提供分析服务。

何时使用

设计数据湖/数据湖屋架构
设置摄取管道（批处理、增量、CDC）
构建SQL转换层（SQLMesh、dbt）
选择表格式和目录（Iceberg、Delta、Hudi）
部署查询/服务引擎（Trino、ClickHouse、DuckDB）
实现流式管道（Kafka、Flink）
设置编排（Dagster、Airflow、Prefect）
添加治理、血缘、数据质量和成本控制

初步问题

批处理、流式还是混合？新鲜度SLO是多少？
仅追加 vs 更新/删除（CDC）？需要时间旅行吗？
主要查询模式：BI仪表板（高并发）、临时连接、嵌入式分析？
PII/合规性：行/列级访问、保留、审计日志？
平台约束：自托管 vs 云、首选引擎、团队优势？

默认基线（良好起点）

存储：对象存储 + 开放表格式（通常为Iceberg）
目录：REST/Hive/Glue/Nessie/Unity（匹配您的平台）
转换：SQLMesh或dbt（选择一个并标准化）
湖查询：Trino（或Spark用于重度计算/ML工作负载）
服务（可选）：ClickHouse/StarRocks/Doris用于低延迟BI
治理：DataHub/OpenMetadata + OpenLineage
编排：Dagster/Airflow/Prefect

工作流程

选择表格式 + 目录：references/storage-formats.md（使用 assets/cross-platform/template-schema-evolution.md 和 assets/cross-platform/template-partitioning-strategy.md）
设计摄取（批处理/增量/CDC）：references/ingestion-patterns.md（使用 assets/cross-platform/template-ingestion-governance-checklist.md 和 assets/cross-platform/template-incremental-loading.md）
设计转换（青铜/白银/黄金或数据产品）：references/transformation-patterns.md（使用 assets/cross-platform/template-data-pipeline.md）
选择湖查询 vs 服务引擎：references/query-engine-patterns.md
添加治理、血缘和质量门：references/governance-catalog.md（使用 assets/cross-platform/template-data-quality-governance.md 和 assets/cross-platform/template-data-quality.md）
计划操作 + 成本控制：references/operational-playbook.md 和 references/cost-optimization.md（使用 assets/cross-platform/template-data-quality-backfill-runbook.md 和 assets/cross-platform/template-cost-optimization.md）

架构模式

奖牌（青铜/白银/黄金）：references/architecture-patterns.md
数据网格（领域自有数据产品）：references/architecture-patterns.md
流式优先（Kappa）：references/streaming-patterns.md
图/Mermaid片段：references/overview.md

快速开始

dlt + ClickHouse

pip install "dlt[clickhouse]"
dlt init rest_api clickhouse
python pipeline.py

SQLMesh + DuckDB

pip install sqlmesh
sqlmesh init duckdb
sqlmesh plan && sqlmesh run

可靠性和安全性

做

提前定义数据契约和所有者
为每个层级添加质量门（新鲜度、容量、模式、分布）
使每个管道具有幂等性和可重新运行性（回填是正常的）
将访问控制和审计日志视为一等要求

避免

跳过验证以“快速前进”
存储PII而无访问控制
无法安全重新运行的管道
无版本控制的手动模式更改

资源

资源	目的
references/overview.md	图和决策流
references/architecture-patterns.md	奖牌、数据网格
references/ingestion-patterns.md	dlt vs Airbyte, CDC
references/transformation-patterns.md	SQLMesh vs dbt
references/storage-formats.md	Iceberg vs Delta
references/query-engine-patterns.md	ClickHouse, DuckDB
references/streaming-patterns.md	Kafka, Flink
references/orchestration-patterns.md	Dagster, Airflow
references/bi-visualization-patterns.md	Metabase, Superset
references/cost-optimization.md	成本杠杆和维护
references/operational-playbook.md	监控和事件响应
references/governance-catalog.md	目录、血缘、访问控制

模板

模板	目的
assets/cross-platform/template-medallion-architecture.md	基线青铜/白银/黄金计划
assets/cross-platform/template-data-pipeline.md	端到端管道框架
assets/cross-platform/template-ingestion-governance-checklist.md	源入职清单
assets/cross-platform/template-incremental-loading.md	增量 + 回填计划
assets/cross-platform/template-schema-evolution.md	模式变更规则
assets/cross-platform/template-cost-optimization.md	成本控制清单
assets/cross-platform/template-data-quality-governance.md	质量契约 + SLOs
assets/cross-platform/template-data-quality-backfill-runbook.md	回填事件/运行手册

技能	目的
ai-mlops	ML部署
ai-ml-data-science	特征工程
data-sql-optimization	OLTP优化

数据湖平台Skill data-lake-platform

名称: 数据湖平台描述: “数据湖和数据湖屋平台模式：摄取/CDC、转换、开放表格式（Iceberg/Delta/Hudi）、查询和服务引擎（Trino/ClickHouse/DuckDB）、编排、治理/血缘、成本和操作。自托管和云选项。”

数据湖平台

何时使用

初步问题

默认基线（良好起点）

工作流程

架构模式

快速开始

dlt + ClickHouse

SQLMesh + DuckDB

可靠性和安全性

做

避免

资源

模板

相关技能

名称: 数据湖平台 描述: “数据湖和数据湖屋平台模式：摄取/CDC、转换、开放表格式（Iceberg/Delta/Hudi）、查询和服务引擎（Trino/ClickHouse/DuckDB）、编排、治理/血缘、成本和操作。自托管和云选项。”

数据湖平台

何时使用

初步问题

默认基线（良好起点）

工作流程

架构模式

快速开始

dlt + ClickHouse

SQLMesh + DuckDB

可靠性和安全性

做

避免

资源

模板

相关技能

名称: 数据湖平台描述: “数据湖和数据湖屋平台模式：摄取/CDC、转换、开放表格式（Iceberg/Delta/Hudi）、查询和服务引擎（Trino/ClickHouse/DuckDB）、编排、治理/血缘、成本和操作。自托管和云选项。”