数据科学 Skill技能列表
CSV数据整理专家Skill csv-data-wrangler
CSV数据整理专家是一个专注于高效处理、清洗和转换CSV文件的专业技能。它使用Python、DuckDB和命令行工具,解决大型CSV文件处理、编码问题、数据验证和格式转换等挑战。关键词:CSV处理、数据清洗、Python、DuckDB、大数据、表格数据、编码转换、数据验证、文件分块、SQL查询。
数据工程师Skill data-engineer
数据工程师技能专注于构建、维护和优化大规模数据处理系统与基础设施。核心能力包括设计可扩展的数据管道、实施ETL/ELT工作流、构建数据湖/数据仓库、进行实时流处理以及优化数据平台成本与性能。适用于企业级数据平台搭建、数据治理、数据迁移和现代化数据架构项目。关键词:数据工程,ETL,ELT,数据管道,数据仓库,数据湖,Airflow,Spark,Kafka,大数据处理,数据基础设施。
数据库优化器Skill database-optimizer
数据库优化器是一个专业的数据库性能调优工具,专注于查询优化、索引设计、执行计划分析和数据库配置调优。支持PostgreSQL、MySQL、MongoDB、Redis等主流数据库系统,通过系统化方法解决慢查询、高负载、连接超时等性能问题,实现亚秒级响应和最优资源利用率。关键词:数据库优化、查询性能调优、索引策略、执行计划分析、数据库配置、慢查询优化、OLTP性能、数据库监控、容量规划、水平扩展。
创建Bauplan数据管道Skill creating-bauplan-pipelines
本技能是Bauplan数据工程平台的详细指南,用于创建和管理数据管道项目。它涵盖了从项目初始化、DAG(有向无环图)设计、SQL/Python模型编写、到严格模式验证和物化策略的全流程。核心功能包括:数据管道开发、ETL/ELT流程构建、数据转换模型(SQL/Python)、数据质量检查、I/O下推优化、分支安全管理以及自动化工作流。适用于数据工程师、数据分析师和开发人员构建可维护、高性能的数据处理流水线。
WAP数据安全摄取技能Skill wap-ingestion
WAP数据安全摄取技能是一种基于写-审计-发布模式的数据工程解决方案,专门用于从AWS S3云存储安全导入数据到bauplan数据平台。该技能通过临时分支隔离、数据质量检查、原子性合并等机制,确保数据加载过程的安全可靠,防止脏数据污染生产环境。适用于金融风控、企业数据仓库、ETL流程、数据湖管理等场景,支持Parquet、CSV、JSONL等多种数据格式的安全摄取。
DatabaseMigrationsSkill DatabaseMigrations
数据库迁移是用于模式演变和数据转换的数据库迁移策略和工具,它们帮助团队以受控、可复现的方式发展数据库结构,同时维护数据完整性并最小化停机时间。
日志解析与导入SOPSkill "self/import/file_path"
此技能是定义和执行日志解析的标准操作程序(SOP),用于处理Apache、Nginx、Syslog、JSON和自定义等多种日志格式,通过数据类和LogEntry类表示解析后的日志条目。它帮助用户标准化日志处理流程,提高数据解析效率,便于数据收集和分析。关键词:日志解析、SOP、文件导入、Apache日志、Nginx日志、Syslog、JSON日志、自定义日志、数据工程、数据类、LogEntry。
数据迁移专家Skill data-migration-expert
此技能用于数据库迁移过程中的数据完整性和安全性验证,确保数据无损坏。通过检查ID映射、交换值、回滚策略等,防止迁移错误。关键词:数据迁移、数据库安全、完整性验证、ID映射检查、回滚安全、迁移审查。
流式细胞仪文件处理库Skill flowio
FlowIO是一个轻量级Python库,用于读取、写入和处理流式细胞仪标准(FCS)文件,支持FCS版本2.0-3.1。它能提取事件数据为NumPy数组,读取元数据和通道信息,并转换为CSV或DataFrame格式,适用于流式细胞仪数据预处理和分析。关键词:Python库,FCS文件,流式细胞仪数据,数据预处理,NumPy,数据分析。
流处理Skill stream-processing
流处理技能专注于实时数据处理技术,用于构建事件驱动系统和流分析应用。它涉及使用框架如Apache Kafka、Apache Flink等处理无界数据流,支持低延迟响应、窗口操作、状态管理和精确一次交付。关键词:流处理、实时数据、事件流、Kafka、Flink、流分析、数据管道、事件驱动架构。
AIOS数据库架构与运维工程师Skill aios-data-engineer
这是一个专注于数据库架构与运维的技能,用于数据库设计、模式构建、Supabase配置、RLS策略实施、数据迁移、查询优化、数据建模和运维监控。适合数据工程师、数据库管理员和开发人员使用。关键词:数据库架构、运维工程师、Supabase、数据工程、查询优化、RLS策略、数据建模、迁移。
提取BigQuery架构Skill extract-bq-schema
此技能用于直接从Google BigQuery数据集中提取表架构,并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建,提升元数据管理效率。关键词:BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。