名称: col-lineage 描述: 为特定任务生成列级血缘
列级血缘技能
为特定转换任务生成列级血缘,展示每个输出列如何通过SQL转换追溯到其源列。这提供了细粒度的数据溯源信息。
使用
starlake col-lineage [options]
选项
--task <value>: 任务名称,格式为domain.task(必填)--output <value>: 输出JSON文件路径(默认:控制台输出)--accessToken <value>: 用于身份验证的访问令牌(例如 GCP)--reportFormat <value>: 报告输出格式:console、json或html
工作原理
分析任务的SQL查询,并追溯每个输出列到其源列。例如,给定:
-- metadata/transform/kpi/revenue_summary.sql
SELECT
o.order_id,
o.timestamp AS order_date,
SUM(ol.quantity * ol.sale_price) AS total_revenue
FROM
starbake.orders o
JOIN starbake.order_lines ol ON o.order_id = ol.order_id
GROUP BY
o.order_id, o.timestamp
列级血缘输出会显示:
order_id←starbake.orders.order_idorder_date←starbake.orders.timestamptotal_revenue←starbake.order_lines.quantity,starbake.order_lines.sale_price
示例
为任务生成列级血缘
starlake col-lineage --task kpi.revenue_summary
将列级血缘保存到文件
starlake col-lineage --task kpi.order_summary --output col_lineage.json
使用访问令牌的列级血缘
starlake col-lineage --task kpi.revenue_summary --accessToken $GCP_TOKEN
相关技能
- lineage - 任务级依赖图
- table-dependencies - 表关系图
- transform - 运行转换任务