数据科学 Skill技能列表

4.5

提取模式技能Skill extract-schema

这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。

4.5

比较Skill compare

此 Starlake compare 技能用于数据工程项目的版本对比,生成差异报告,支持 Git 集成、文件路径和标签比较,便于审查 schema 更改、配置更新和发布管理。关键词包括 Starlake、比较、差异报告、schema 变化、数据工程、Git 版本控制、ETL 开发、数据治理,提升项目管理效率。

4.5

查询专家Skill query-expert

查询专家技能用于掌握和优化SQL及NoSQL数据库查询,生成高效查询、分析性能、设计索引并解决慢查询问题。关键词:数据库查询、SQL优化、性能分析、索引设计、查询调试、NoSQL、EXPLAIN计划、聚合管道、GraphQL、ETL开发。

4.5

画布设计Skill canvas-design

画布设计技能专注于利用HTML Canvas API或现代设计工具,实现高效的数据可视化、交互式图形和动态动画创作。它融合了视觉设计原则和技术实现,适用于创建从静态海报到复杂交互界面的多样化视觉内容,提升用户体验和信息传达效果。关键词:画布设计、HTML Canvas、数据可视化、交互图形、视觉设计、动画、图像处理、前端开发、设计工具。

4.5

数据迁移Skill data-migration

数据迁移技能专注于安全、高效地执行数据库和数据系统的迁移工作,包括规划迁移策略、实施数据转换、确保零停机部署以及设计回滚机制,以维护数据完整性和系统稳定性。关键词:数据库迁移,数据转换,零停机,安全架构,回滚策略,数据完整性。

4.5

数据工程师Skill data-engineer

数据工程师技能专注于构建、维护和优化大规模数据处理系统与基础设施。核心能力包括设计可扩展的数据管道、实施ETL/ELT工作流、构建数据湖/数据仓库、进行实时流处理以及优化数据平台成本与性能。适用于企业级数据平台搭建、数据治理、数据迁移和现代化数据架构项目。关键词:数据工程,ETL,ELT,数据管道,数据仓库,数据湖,Airflow,Spark,Kafka,大数据处理,数据基础设施。

4.5

Stan贝叶斯建模Skill stan-bayesian-modeling

Stan贝叶斯建模技能专注于使用Stan概率编程语言进行高级贝叶斯统计推断和复杂统计模型构建。核心功能包括MCMC采样(如NUTS和HMC算法)、变分推断、先验与后验预测检验,以及基于LOO-CV和WAIC的模型比较。适用于量化金融中的预测建模、风险管理、因子挖掘,以及数据科学领域的统计计算、不确定性量化和概率预测。关键词:Stan概率编程,贝叶斯推断,MCMC采样,变分推断,模型比较,统计建模,量化金融,数据科学。

4.5

时序数据库技能Skill timescaledb

Timescaledb技能提供全面的时序数据库开发支持,涵盖超表管理、连续聚合、数据压缩和实时分析等核心功能。本技能专为数据库开发者、数据工程师和DevOps团队设计,包含官方文档、代码示例和最佳实践指南,帮助用户高效处理时间序列数据,优化查询性能,实现大规模时序数据存储与分析解决方案。

4.5

CocoIndex数据索引框架Skill cocoindex

CocoIndex 是一个用于 AI 数据处理的实时数据转换框架,支持构建 ETL 工作流,包括文档嵌入到向量数据库、知识图谱构建、搜索索引创建等。关键功能包括增量处理、实时更新、多数据源和目标支持,适用于数据工程师和 AI 开发者进行高效数据转换和索引。关键词:数据转换、ETL、AI 数据处理、文档嵌入、向量数据库、知识图谱、实时索引。

4.5

ClickHouse高性能分析模式与优化Skill clickhouse-io

本技能专注于 ClickHouse 数据库的高性能分析模式、查询优化和数据工程最佳实践,适用于大规模数据分析工作负载。关键词包括 ClickHouse、数据分析、查询优化、数据仓库、ETL、物化视图、性能监控、OLAP、列式存储。

4.5

Python科学计算技能Skill pycse

pycse 是一个 Python 库,用于科学和工程计算,提供自动计算置信区间和预测边界的回归分析、模型拟合、ODE 求解和缓存功能。简化数据分析和预测建模流程,提高效率,关键词:Python, 科学计算, 回归分析, 置信区间, 预测建模, 模型拟合, ODE, 缓存。

4.5

引导技能Skill bootstrap

引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。