数据科学 Skill技能列表
DAG生成技能Skill dag-generate
该技能用于从 Starlake 项目配置自动生成 Airflow 或 Dagster 的 DAG(有向无环图)文件,支持数据加载和变换任务的编排,适用于数据工程、ETL 开发和自动化工作流管理。关键词:DAG, Airflow, Dagster, Starlake, 数据工程, ETL, 任务编排, 工作流。
DAG部署技能Skill dag-deploy
DAG部署技能专用于自动化部署生成的DAG文件到目标目录,如Airflow DAGs文件夹,支持清理和文件组织,优化数据管道管理,适用于数据工程、ETL开发和DevOps场景,提升数据工作流效率。
比较Skill compare
此 Starlake compare 技能用于数据工程项目的版本对比,生成差异报告,支持 Git 集成、文件路径和标签比较,便于审查 schema 更改、配置更新和发布管理。关键词包括 Starlake、比较、差异报告、schema 变化、数据工程、Git 版本控制、ETL 开发、数据治理,提升项目管理效率。
列级血缘技能Skill col-lineage
这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。
连接加载技能Skill cnxload
此技能用于将Parquet、CSV或JSON文件直接加载到JDBC数据库表,提供快速数据导入功能,支持多种数据库驱动和并行写入选项,适用于数据集成、ETL开发和数据仓库场景,关键词包括:数据加载、JDBC、Parquet、CSV、JSON、数据库连接、ETL、批量处理。
引导技能Skill bootstrap
引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。
自动加载Skill autoload
自动加载技能通过监控传入目录,自动推断数据文件的模式,生成配置文件,并将数据高效加载到数据仓库中,适用于快速数据集成和ETL流程优化,关键词包括:自动加载、模式推断、数据仓库、ETL、数据工程。
ACL依赖关系图生成技能Skill acl-dependencies
该技能用于生成基于YAML配置中ACL(访问控制列表)定义的用户/组与数据库表之间访问权限的可视化依赖关系图。关键词:ACL、访问控制、依赖关系、可视化图、数据安全、权限管理、YAML配置、数据治理、DevOps工具。
可视化解释器Skill visual-explainer
这个技能用于生成自包含的 HTML 页面,以可视化方式解释系统、数据故事、调查、编辑工作流程和代码变更。它自动将表格和图表渲染为 HTML,支持多种设计美学,并确保可访问性和响应式设计。适用于新闻、学术和技术文档场景。关键词:HTML可视化、数据可视化、系统架构图、新闻编辑室设计、SEO优化、前端开发、数据故事、图表生成。
Python数据管道开发Skill python-pipeline
该技能用于构建模块化的Python数据处理管道,支持工作流协调、内容类型调度、Google Sheets/Drive API集成和AI服务应用。适用于内容处理、批量处理系统和数据工程场景,提高数据处理效率和自动化水平。关键词:Python、数据管道、模块化架构、调度器、Google Sheets集成、AI集成、ETL、数据处理、批量处理、工作流自动化。
Excalidraw图表生成器Skill excalidraw-diagram-generator
Excalidraw 图表生成器是一个基于AI的技能,能够将自然语言描述自动转换为Excalidraw格式的图表。它支持多种图表类型,如流程图、关系图、思维导图、系统架构图等,适用于数据可视化、系统设计和过程建模。关键词:Excalidraw, 图表生成, 流程图, 关系图, 思维导图, 数据可视化, 自然语言处理, AI绘图。
Kafka流管理Skill kafka-streaming
这个技能用于管理和监控Kafka流处理平台,包括主题创建、消费者组状态检查、延迟分析、broker健康评估等。适用于数据工程师、DevOps工程师和系统管理员,帮助优化数据流管道和确保系统稳定性。关键词:Kafka, 流管理, 主题管理, 消费者组, 延迟监控, broker健康, 数据工程, 消息队列。