数据科学 Skill技能列表
NeMoCurator-GPU加速数据整理工具Skill nemo-curator
NeMo Curator 是 NVIDIA 推出的 GPU 加速数据整理工具,专为大规模语言模型(LLM)训练数据准备而设计。它支持文本、图像、视频、音频等多模态数据,提供模糊去重(比 CPU 快 16 倍)、质量过滤(30+ 启发式)、语义去重、PII 脱敏、NSFW 检测等功能,显著提升数据处理效率并降低成本。适用于 AI 研究人员、数据工程师和开发者,用于高效清理和优化训练数据集,关键词包括 GPU 加速、数据整理、LLM 训练、去重、过滤、多模态、RAPIDS、NVIDIA。
RSS聚合器Skill rss-aggregator
RSS聚合器技能,通过Python脚本自动抓取和汇总多个RSS订阅源的最新内容,提供结构化更新信息,适用于信息聚合、数据分析和自动化报告。关键词:RSS聚合、数据抓取、信息汇总、自动化更新、Python脚本。
CSV数据整理专家Skill csv-data-wrangler
CSV数据整理专家是一个专注于高效处理、清洗和转换CSV文件的专业技能。它使用Python、DuckDB和命令行工具,解决大型CSV文件处理、编码问题、数据验证和格式转换等挑战。关键词:CSV处理、数据清洗、Python、DuckDB、大数据、表格数据、编码转换、数据验证、文件分块、SQL查询。
数据工程师Skill data-engineer
数据工程师技能专注于构建、维护和优化大规模数据处理系统与基础设施。核心能力包括设计可扩展的数据管道、实施ETL/ELT工作流、构建数据湖/数据仓库、进行实时流处理以及优化数据平台成本与性能。适用于企业级数据平台搭建、数据治理、数据迁移和现代化数据架构项目。关键词:数据工程,ETL,ELT,数据管道,数据仓库,数据湖,Airflow,Spark,Kafka,大数据处理,数据基础设施。
数据库优化器Skill database-optimizer
数据库优化器是一个专业的数据库性能调优工具,专注于查询优化、索引设计、执行计划分析和数据库配置调优。支持PostgreSQL、MySQL、MongoDB、Redis等主流数据库系统,通过系统化方法解决慢查询、高负载、连接超时等性能问题,实现亚秒级响应和最优资源利用率。关键词:数据库优化、查询性能调优、索引策略、执行计划分析、数据库配置、慢查询优化、OLTP性能、数据库监控、容量规划、水平扩展。
Snakemake工作流管理器Skill snakemake-workflow-manager
Snakemake工作流管理器是一个用于生物信息学和数据分析领域的自动化流程管理工具。该技能支持基于规则的管道执行、DAG工作流调度、集群计算资源管理、Conda环境隔离、检查点恢复机制和性能基准收集。适用于构建可重复、可扩展的科研分析流程,特别适合高通量测序数据处理、批量数据分析和自动化报告生成等场景。 关键词:Snakemake工作流管理, 生物信息学流程自动化, 可重复研究, DAG任务调度, Conda环境管理, 集群计算, 数据分析管道, 工作流检查点, 基准测试, 报告生成
ClickHouse高性能分析模式Skill clickhouse-io
本技能文档系统介绍了ClickHouse数据库在高性能分析场景下的核心模式与实践。涵盖表设计优化、查询性能调优、数据插入策略、物化视图应用、性能监控方法以及常见分析查询模式。适用于数据工程师、数据分析师和开发人员构建实时分析系统、数据仓库和大规模数据处理平台。关键词:ClickHouse优化、OLAP数据库、实时分析、数据工程、查询性能、大数据处理、数据仓库、ETL管道、物化视图、时间序列分析。
时序数据库技能Skill timescaledb
Timescaledb技能提供全面的时序数据库开发支持,涵盖超表管理、连续聚合、数据压缩和实时分析等核心功能。本技能专为数据库开发者、数据工程师和DevOps团队设计,包含官方文档、代码示例和最佳实践指南,帮助用户高效处理时间序列数据,优化查询性能,实现大规模时序数据存储与分析解决方案。
TimescaleDB时序数据库技能Skill timescaledb
TimescaleDB时序数据库技能是专门用于PostgreSQL时间序列数据库扩展的AI助手。提供TimescaleDB开发支持、超表管理、连续聚合、数据压缩、实时分析等功能。适用于时序数据处理、物联网监控、金融数据分析、DevOps监控等场景。关键词:TimescaleDB、时序数据库、PostgreSQL扩展、超表、时间序列分析、数据压缩、实时分析、物联网数据、金融数据、DevOps监控。
创建Bauplan数据管道Skill creating-bauplan-pipelines
本技能是Bauplan数据工程平台的详细指南,用于创建和管理数据管道项目。它涵盖了从项目初始化、DAG(有向无环图)设计、SQL/Python模型编写、到严格模式验证和物化策略的全流程。核心功能包括:数据管道开发、ETL/ELT流程构建、数据转换模型(SQL/Python)、数据质量检查、I/O下推优化、分支安全管理以及自动化工作流。适用于数据工程师、数据分析师和开发人员构建可维护、高性能的数据处理流水线。
WAP数据安全摄取技能Skill wap-ingestion
WAP数据安全摄取技能是一种基于写-审计-发布模式的数据工程解决方案,专门用于从AWS S3云存储安全导入数据到bauplan数据平台。该技能通过临时分支隔离、数据质量检查、原子性合并等机制,确保数据加载过程的安全可靠,防止脏数据污染生产环境。适用于金融风控、企业数据仓库、ETL流程、数据湖管理等场景,支持Parquet、CSV、JSONL等多种数据格式的安全摄取。
DatabaseMigrationsSkill DatabaseMigrations
数据库迁移是用于模式演变和数据转换的数据库迁移策略和工具,它们帮助团队以受控、可复现的方式发展数据库结构,同时维护数据完整性并最小化停机时间。