数据科学 Skill技能列表
Python科学计算技能Skill pycse
pycse 是一个 Python 库,用于科学和工程计算,提供自动计算置信区间和预测边界的回归分析、模型拟合、ODE 求解和缓存功能。简化数据分析和预测建模流程,提高效率,关键词:Python, 科学计算, 回归分析, 置信区间, 预测建模, 模型拟合, ODE, 缓存。
引导技能Skill bootstrap
引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。
Kafka流管理Skill kafka-streaming
这个技能用于管理和监控Kafka流处理平台,包括主题创建、消费者组状态检查、延迟分析、broker健康评估等。适用于数据工程师、DevOps工程师和系统管理员,帮助优化数据流管道和确保系统稳定性。关键词:Kafka, 流管理, 主题管理, 消费者组, 延迟监控, broker健康, 数据工程, 消息队列。
CocoIndex数据索引框架Skill cocoindex
CocoIndex 是一个用于 AI 数据处理的实时数据转换框架,支持构建 ETL 工作流,包括文档嵌入到向量数据库、知识图谱构建、搜索索引创建等。关键功能包括增量处理、实时更新、多数据源和目标支持,适用于数据工程师和 AI 开发者进行高效数据转换和索引。关键词:数据转换、ETL、AI 数据处理、文档嵌入、向量数据库、知识图谱、实时索引。
弹性搜索Skill elasticsearch
提供关于Elasticsearch的全面指导,帮助用户掌握索引创建、数据搜索、聚合分析、映射配置和集群管理等核心功能。适用于开发搜索应用、进行大数据分析或管理分布式搜索系统。关键词:Elasticsearch, 搜索, 索引, 聚合, 映射, 集群管理, 数据分析。
KPIDashboardDesignSkill kpi-dashboard-design
设计和构建跟踪关键绩效指标的仪表盘。选择相关指标,有效可视化数据,并与利益相关者沟通洞察。
SQL查询优化Skill sql-query-optimization
SQL查询优化是一项技术,用于分析和优化数据库查询,提高查询性能,减少执行时间。关键词包括:性能瓶颈、索引策略、查询重写、EXPLAIN分析、批量操作。
数据库设计专家Skill database-designer
数据库设计专家技能是一套综合工具和知识体系,用于构建和优化现代数据库系统。关键词包括数据库架构、性能优化、数据迁移、索引策略、规范化设计。
AI-ML数据科学工程套件Skill ai-ml-data-science
这个技能提供了一个完整的端到端数据科学和机器学习工程工作流程,将原始数据和业务问题转化为可生产化的验证模型。它涵盖了数据探索、特征设计、模型选择、性能评估、SQL变换和MLOps实践,特别强调现代特征存储、自动化重训练和漂移监控。关键词:数据科学、机器学习、特征工程、模型评估、MLOps、SQLMesh、预测建模、可重复性。
JSONCanvas技能Skill json-canvas
JSON Canvas技能用于创建和编辑JSON Canvas文件(.canvas),这些文件在Obsidian等应用程序中用于构建无限画布,支持文本、文件、链接和组节点,以及它们之间的连接,适用于思维导图、流程图、项目板等可视化场景。关键词:JSON Canvas, Obsidian, 画布, 思维导图, 流程图, 数据可视化, 文件格式
阶段技能Skill stage
阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。
提取BigQuery架构Skill extract-bq-schema
此技能用于直接从Google BigQuery数据集中提取表架构,并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建,提升元数据管理效率。关键词:BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。