列级血缘技能Skill col-lineage

这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。

数据工程 0 次安装 0 次浏览 更新于 3/15/2026

名称: col-lineage 描述: 为特定任务生成列级血缘

列级血缘技能

为特定转换任务生成列级血缘,展示每个输出列如何通过SQL转换追溯到其源列。这提供了细粒度的数据溯源信息。

使用

starlake col-lineage [options]

选项

  • --task <value>: 任务名称,格式为 domain.task(必填)
  • --output <value>: 输出JSON文件路径(默认:控制台输出)
  • --accessToken <value>: 用于身份验证的访问令牌(例如 GCP)
  • --reportFormat <value>: 报告输出格式:consolejsonhtml

工作原理

分析任务的SQL查询,并追溯每个输出列到其源列。例如,给定:

-- metadata/transform/kpi/revenue_summary.sql
SELECT
    o.order_id,
    o.timestamp AS order_date,
    SUM(ol.quantity * ol.sale_price) AS total_revenue
FROM
    starbake.orders o
    JOIN starbake.order_lines ol ON o.order_id = ol.order_id
GROUP BY
    o.order_id, o.timestamp

列级血缘输出会显示:

  • order_idstarbake.orders.order_id
  • order_datestarbake.orders.timestamp
  • total_revenuestarbake.order_lines.quantity, starbake.order_lines.sale_price

示例

为任务生成列级血缘

starlake col-lineage --task kpi.revenue_summary

将列级血缘保存到文件

starlake col-lineage --task kpi.order_summary --output col_lineage.json

使用访问令牌的列级血缘

starlake col-lineage --task kpi.revenue_summary --accessToken $GCP_TOKEN

相关技能