数据科学 Skill技能列表

4.5

KafkaStreamsSkill kafka-streams

Kafka Streams是一个用于构建实时流处理应用程序的库,它提供了一个高级的抽象,允许开发者轻松地表达处理逻辑,同时确保数据的容错性和可扩展性。

4.5

可视化选择与报告Skill visualization-choice-reporting

可视化选择与报告技能涉及根据数据和问题选择适当的图表类型,并创建叙述性报告以突出数据见解和推荐行动。它适用于数据分析、仪表板构建、商业智能和决策支持场景,帮助用户将复杂数据转化为清晰、可操作的视觉故事。关键词:数据可视化,图表选择,报告生成,数据分析,商业智能,仪表板设计,叙述性报告。

4.5

数据转换Skill transforming-data

数据转换技能涉及使用ETL/ELT模式、SQL(如dbt)、Python库(如pandas、polars、PySpark)和编排工具(如Airflow)将原始数据处理成可用于分析的数据集,适用于数据管道构建、增量加载、性能优化和数据质量保障。关键词:数据转换、ETL开发、数据工程、数据管道、dbt、Airflow、SQL、Python、数据仓库。

4.5

ApacheBeam核心概念技能Skill beam-concepts

Apache Beam是一个用于批处理和流数据处理的开源编程模型,支持构建可移植的数据管道,适用于数据工程、ETL开发和云原生应用。关键词:数据处理、批处理、流处理、Apache Beam、数据管道、数据工程、ETL开发、云原生。

4.5

ClickHouse数据工程与分析技能Skill clickhouse-io

这个技能专注于使用ClickHouse列式数据库进行高性能数据分析和数据工程,涵盖表设计、查询优化、物化视图、批量插入和实时聚合等模式。它适用于大规模数据处理、实时OLAP分析,特别是在股票量化交易中用于数据处理、回测和风险评估,关键词包括ClickHouse、数据分析、数据工程、查询优化、物化视图、量化金融、OLAP、实时分析、大数据处理。

4.5

DAG生成技能Skill dag-generate

该技能用于从 Starlake 项目配置自动生成 Airflow 或 Dagster 的 DAG(有向无环图)文件,支持数据加载和变换任务的编排,适用于数据工程、ETL 开发和自动化工作流管理。关键词:DAG, Airflow, Dagster, Starlake, 数据工程, ETL, 任务编排, 工作流。

4.5

数据迁移专家Skill data-migration-expert

此技能用于数据库迁移过程中的数据完整性和安全性验证,确保数据无损坏。通过检查ID映射、交换值、回滚策略等,防止迁移错误。关键词:数据迁移、数据库安全、完整性验证、ID映射检查、回滚安全、迁移审查。

4.5

研究技能Skill research

这个技能帮助用户研究预测市场,提供基础率分析、解决规则查询和历史类比功能,用于市场预测和数据分析。关键词:市场研究、基础率、解决规则、历史数据、预测分析、量化金融、数据科学

4.5

MongoDB数据库操作技能Skill mongodb

这个技能提供MongoDB数据库的全面指导,涵盖文档操作、查询、聚合、索引和最佳实践,适用于处理MongoDB数据、编写高效查询和优化数据库设计的场景。关键词包括MongoDB、数据库管理、文档存储、NoSQL、查询优化、索引策略。

4.5

映射可视化框架Skill mapping-visualization-scaffolds

这个技能用于创建视觉映射,通过图表、概念地图和架构蓝图文档化复杂系统的关系、依赖和结构,适用于系统理解、知识组织、流程文档化和战略可视化。关键词:映射可视化、系统架构、数据可视化、信息架构、概念地图、依赖图。

4.5

数据架构Skill data-architecture

数据架构技能专注于现代数据平台设计,包括数据湖、数据湖屋、数据仓库和数据网格等模式的选用与实施,涉及数据存储策略、架构权衡和治理。关键词:数据架构、数据湖、数据湖屋、数据网格、数据平台设计、数据存储策略、ACID事务、数据治理。

4.5

JSON画布技能Skill json-canvas

JSON画布技能用于创建和编辑符合JSON Canvas Spec 1.0的画布文件(.canvas),支持文本、文件、链接和组节点,以及边连接,适用于思维导图、流程图、项目看板等可视化场景。关键词包括JSON画布、可视化、思维导图、流程图、Obsidian、文件格式、数据可视化。