数据科学 Skill技能列表

4.5

仪器数据到Allotrope转换器Skill instrument-data-to-allotrope

该技能用于将实验室仪器输出的文件(如PDF、CSV、Excel、TXT)转换为标准化的Allotrope Simple Model (ASM) JSON格式或扁平化的2D CSV,以支持数据标准化,便于集成到LIMS系统、数据湖或下游分析。功能包括自动检测仪器类型、生成完整的ASM JSON、扁平化CSV和可导出的Python解析代码,适用于数据工程团队。关键词:仪器数据转换,Allotrope格式,数据标准化,LIMS系统,数据工程,Python解析,实验室数据管理,ASM JSON,扁平化CSV。

4.5

分布式NoSQL数据库专家Skill nosql-expert

本技能提供分布式NoSQL数据库(如Cassandra和DynamoDB)的专业设计模式和指导,包括思维模型、查询优先建模、单表设计、避免热分区等,适用于大规模系统开发、数据工程和云计算场景。关键词:分布式NoSQL数据库、Cassandra、DynamoDB、查询优先建模、热分区、数据工程。

4.5

CocoIndex数据索引框架Skill cocoindex

CocoIndex 是一个用于 AI 数据处理的实时数据转换框架,支持构建 ETL 工作流,包括文档嵌入到向量数据库、知识图谱构建、搜索索引创建等。关键功能包括增量处理、实时更新、多数据源和目标支持,适用于数据工程师和 AI 开发者进行高效数据转换和索引。关键词:数据转换、ETL、AI 数据处理、文档嵌入、向量数据库、知识图谱、实时索引。

4.5

ClickHouse数据工程与分析Skill clickhouse-io

这个技能专注于ClickHouse数据库的使用,包括表设计模式、查询优化、数据插入策略、物化视图、性能监控和常见分析查询。适用于数据工程师和数据分析师,优化大规模数据分析工作负载,提高查询效率和实时处理能力。关键词:ClickHouse,数据工程,数据分析,查询优化,数据仓库,OLAP。

4.5

NeMoCurator-GPU加速数据整理工具Skill nemo-curator

NeMo Curator 是 NVIDIA 推出的 GPU 加速数据整理工具,专为大规模语言模型(LLM)训练数据准备而设计。它支持文本、图像、视频、音频等多模态数据,提供模糊去重(比 CPU 快 16 倍)、质量过滤(30+ 启发式)、语义去重、PII 脱敏、NSFW 检测等功能,显著提升数据处理效率并降低成本。适用于 AI 研究人员、数据工程师和开发者,用于高效清理和优化训练数据集,关键词包括 GPU 加速、数据整理、LLM 训练、去重、过滤、多模态、RAPIDS、NVIDIA。

4.5

RSS聚合器Skill rss-aggregator

RSS聚合器技能,通过Python脚本自动抓取和汇总多个RSS订阅源的最新内容,提供结构化更新信息,适用于信息聚合、数据分析和自动化报告。关键词:RSS聚合、数据抓取、信息汇总、自动化更新、Python脚本。

4.5

CSV数据整理专家Skill csv-data-wrangler

CSV数据整理专家是一个专注于高效处理、清洗和转换CSV文件的专业技能。它使用Python、DuckDB和命令行工具,解决大型CSV文件处理、编码问题、数据验证和格式转换等挑战。关键词:CSV处理、数据清洗、Python、DuckDB、大数据、表格数据、编码转换、数据验证、文件分块、SQL查询。

4.5

数据工程师Skill data-engineer

数据工程师技能专注于构建、维护和优化大规模数据处理系统与基础设施。核心能力包括设计可扩展的数据管道、实施ETL/ELT工作流、构建数据湖/数据仓库、进行实时流处理以及优化数据平台成本与性能。适用于企业级数据平台搭建、数据治理、数据迁移和现代化数据架构项目。关键词:数据工程,ETL,ELT,数据管道,数据仓库,数据湖,Airflow,Spark,Kafka,大数据处理,数据基础设施。

4.5

数据库优化器Skill database-optimizer

数据库优化器是一个专业的数据库性能调优工具,专注于查询优化、索引设计、执行计划分析和数据库配置调优。支持PostgreSQL、MySQL、MongoDB、Redis等主流数据库系统,通过系统化方法解决慢查询、高负载、连接超时等性能问题,实现亚秒级响应和最优资源利用率。关键词:数据库优化、查询性能调优、索引策略、执行计划分析、数据库配置、慢查询优化、OLTP性能、数据库监控、容量规划、水平扩展。

4.5

创建Bauplan数据管道Skill creating-bauplan-pipelines

本技能是Bauplan数据工程平台的详细指南,用于创建和管理数据管道项目。它涵盖了从项目初始化、DAG(有向无环图)设计、SQL/Python模型编写、到严格模式验证和物化策略的全流程。核心功能包括:数据管道开发、ETL/ELT流程构建、数据转换模型(SQL/Python)、数据质量检查、I/O下推优化、分支安全管理以及自动化工作流。适用于数据工程师、数据分析师和开发人员构建可维护、高性能的数据处理流水线。

4.5

WAP数据安全摄取技能Skill wap-ingestion

WAP数据安全摄取技能是一种基于写-审计-发布模式的数据工程解决方案,专门用于从AWS S3云存储安全导入数据到bauplan数据平台。该技能通过临时分支隔离、数据质量检查、原子性合并等机制,确保数据加载过程的安全可靠,防止脏数据污染生产环境。适用于金融风控、企业数据仓库、ETL流程、数据湖管理等场景,支持Parquet、CSV、JSONL等多种数据格式的安全摄取。

4.5

DatabaseMigrationsSkill DatabaseMigrations

数据库迁移是用于模式演变和数据转换的数据库迁移策略和工具,它们帮助团队以受控、可复现的方式发展数据库结构,同时维护数据完整性并最小化停机时间。