数据工程 Skill技能列表

4.5

DBeaver数据库工具技能Skill dbeaver

此技能提供 DBeaver 数据库工具的全面指导,包括数据库连接、SQL 编辑、数据管理和数据库管理,帮助用户高效处理数据库操作。关键词:数据库、SQL、DBeaver、数据管理、数据库管理、SQL 查询、数据库工具、数据工程。

4.5

流式细胞仪文件处理库Skill flowio

FlowIO是一个轻量级Python库,用于读取、写入和处理流式细胞仪标准(FCS)文件,支持FCS版本2.0-3.1。它能提取事件数据为NumPy数组,读取元数据和通道信息,并转换为CSV或DataFrame格式,适用于流式细胞仪数据预处理和分析。关键词:Python库,FCS文件,流式细胞仪数据,数据预处理,NumPy,数据分析。

4.5

Kafka工程师Skill kafka-engineer

Kafka工程师技能专注于Apache Kafka分布式流处理平台,提供实时数据管道构建、事件驱动架构设计、流处理应用开发(Kafka Streams/ksqlDB)以及数据集成(Kafka Connect)的专业能力。核心关键词包括:实时数据处理、事件流、微服务通信、数据管道、流计算、消息队列、大数据集成、容错系统、性能调优。适用于构建高吞吐、低延迟的实时数据平台,支撑金融风控、电商交易、物联网监控等场景。

4.5

仪器数据Allotrope转换器Skill bio-instrument-data

该技能用于将实验室仪器输出文件转换为标准化的Allotrope Simple Model (ASM) JSON格式或扁平化2D CSV,便于在LIMS系统、数据湖中使用或进行下游分析。它支持自动检测仪器类型,并提供ASM JSON、CSV和Python代码输出,帮助数据工程师集成到生产管道中。关键词:仪器数据转换、Allotrope标准化、LIMS系统、数据工程、生物信息学、数据湖、Python解析器。

4.5

流处理Skill stream-processing

流处理技能专注于实时数据处理技术,用于构建事件驱动系统和流分析应用。它涉及使用框架如Apache Kafka、Apache Flink等处理无界数据流,支持低延迟响应、窗口操作、状态管理和精确一次交付。关键词:流处理、实时数据、事件流、Kafka、Flink、流分析、数据管道、事件驱动架构。

4.5

YAML转Excel转换器Skill yml2xls

该技能用于将 Starlake YAML 数据定义转换为 Excel 电子表格,便于与非技术用户共享数据模型,支持 YAML 和 Excel 之间的双向转换,适用于数据工程、数据治理和数据处理工作流。关键词:YAML 转 Excel, Starlake 数据转换, 数据模型共享, 数据工程工具, ETL 开发, 数据可视化。

4.5

ApacheBeam核心概念技能Skill beam-concepts

Apache Beam是一个用于批处理和流数据处理的开源编程模型,支持构建可移植的数据管道,适用于数据工程、ETL开发和云原生应用。关键词:数据处理、批处理、流处理、Apache Beam、数据管道、数据工程、ETL开发、云原生。

4.5

索引技能Skill index

索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。

4.5

ApacheSpark优化器Skill ApacheSparkOptimizer

Apache Spark 优化器是一款专注于提升大数据处理效率的专业技能。它通过深度分析 Spark 作业的执行计划、数据分区和资源配置,提供针对性的代码优化、参数调优和策略建议,旨在显著降低作业运行时间、减少计算资源消耗并节约成本。核心功能包括数据倾斜治理、Shuffle 优化、缓存策略推荐和集群配置调优,适用于 ETL、流处理和数据迁移等多种大数据场景。关键词:Spark优化,大数据性能调优,分布式计算,ETL加速,成本节约,数据倾斜处理,执行计划分析。

4.5

PDF处理Skill pdf

PDF处理技能是一种使用Python库和工具进行PDF文档操作的技能,包括文本提取、表格提取、PDF创建、合并、分割、表单处理、OCR等。适用于数据提取、文档自动化、数据预处理等场景。关键词:PDF处理、文本提取、表格提取、OCR、Python、数据工程、文档自动化、PDF库。

4.5

KafkaStreamsSkill kafka-streams

Kafka Streams是一个用于构建实时流处理应用程序的库,它提供了一个高级的抽象,允许开发者轻松地表达处理逻辑,同时确保数据的容错性和可扩展性。

4.5

Snakemake工作流管理器Skill snakemake-workflow-manager

Snakemake工作流管理器是一个用于生物信息学和数据分析领域的自动化流程管理工具。该技能支持基于规则的管道执行、DAG工作流调度、集群计算资源管理、Conda环境隔离、检查点恢复机制和性能基准收集。适用于构建可重复、可扩展的科研分析流程,特别适合高通量测序数据处理、批量数据分析和自动化报告生成等场景。 关键词:Snakemake工作流管理, 生物信息学流程自动化, 可重复研究, DAG任务调度, Conda环境管理, 集群计算, 数据分析管道, 工作流检查点, 基准测试, 报告生成