数据科学 Skill技能列表

4.5

数据管道架构师Skill data-pipeline-architect

数据管道架构师技能专注于设计和实现高效、可靠的数据处理流程,涵盖ETL与ELT模式、工作流编排、错误处理和数据质量验证,适用于数据仓库、数据湖等场景。关键词:数据管道、ETL开发、ELT模式、数据工程、数据质量、编排工具、Airflow、dbt、数据仓库、数据处理。

4.5

DAG生成技能Skill dag-generate

该技能用于从 Starlake 项目配置自动生成 Airflow 或 Dagster 的 DAG(有向无环图)文件,支持数据加载和变换任务的编排,适用于数据工程、ETL 开发和自动化工作流管理。关键词:DAG, Airflow, Dagster, Starlake, 数据工程, ETL, 任务编排, 工作流。

4.5

数据处理器Skill data-processor

数据处理器是一个用于处理和验证各种数据输入的工具,适用于数据清洗、验证和预处理。关键词包括数据处理、数据验证、Python工具、数据输入处理,方便SEO搜索和数据管理应用。

4.5

画布设计Skill canvas-design

画布设计技能专注于利用HTML Canvas API或现代设计工具,实现高效的数据可视化、交互式图形和动态动画创作。它融合了视觉设计原则和技术实现,适用于创建从静态海报到复杂交互界面的多样化视觉内容,提升用户体验和信息传达效果。关键词:画布设计、HTML Canvas、数据可视化、交互图形、视觉设计、动画、图像处理、前端开发、设计工具。

4.5

ESLoad技能Skill esload

这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。

4.5

Mermaid.jsv11图表生成Skill mermaidjs-v11

Mermaid.js v11 是一款强大的图表生成工具,允许用户通过简单的文本语法创建多种图表,如流程图、序列图、类图等,支持浏览器渲染、命令行转换和JavaScript API集成,广泛应用于技术文档、系统架构设计和项目管理中,关键词包括数据可视化、图表制作、Mermaid.js、技术文档。

4.5

数据加载技能Skill load

此技能用于将数据文件从待处理区域高效加载到数据仓库中,实现ETL(提取、转换、加载)过程。它包括数据验证以符合模式、应用写策略(如APPEND、OVERWRITE)、强制执行数据质量期望(如唯一性检查)和隐私转换。支持多种文件格式(JSON、CSV、XML),并通过配置灵活管理数据加载。关键词:数据加载,ETL,数据仓库,数据验证,写策略,数据质量,隐私转换,文件格式,配置管理。

4.5

作业技能Skill job

starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。

4.5

验证技能Skill validate

验证技能用于验证Starlake项目配置的YAML文件语法、模式合规性、连接引用等,确保在运行时前捕获配置错误,提升数据治理和ETL流程的可靠性。关键词:验证、配置管理、YAML语法、Starlake工具、数据治理、ETL开发、错误预防。

4.5

提取脚本技能Skill extract-script

提取脚本技能能够从 Mustache 或 SSP 模板自动生成 SQL DDL 脚本,适用于不同数据库平台,支持自定义提取、增量更新和审计功能,提升数据库脚本开发效率。关键词:提取脚本、Mustache 模板、SSP 模板、SQL DDL、数据库脚本生成、增量提取、审计模式。

4.5

Plotly可视化库Skill plotly

Plotly 是一个功能强大的 Python 库,专门用于创建交互式和高质量的图表,支持散点图、线图、条形图、热力图、K线图等40多种图表类型,广泛应用于数据分析、科学可视化和金融图表创建。关键词:交互式可视化、Python 绘图库、数据可视化、图表工具、数据分析、科学图表、金融图表。

4.5

YML到DDL技能Skill yml2ddl

yml2ddl技能是一个数据工程工具,用于从Starlake YAML定义自动生成SQL DDL(数据定义语言)语句,支持BigQuery、Snowflake、PostgreSQL等多种目标数据仓库。它通过类型映射简化数据库表结构的创建和管理,提升数据管道开发效率,适用于数据仓库建设和数据治理场景。关键词:SQL DDL, YAML, 数据仓库, 数据工程, 数据库管理, ETL开发, Starlake。