数据工程 Skill技能列表
高级数据工程师Skill senior-data-engineer
高级数据工程师技能专注于构建和管理可扩展的数据基础设施、ETL/ELT系统、数据管道和数据质量,支持生产级AI/ML和数据系统。关键技术包括Python、SQL、Spark、Airflow、dbt、Kafka等,适用于数据架构设计、数据工作流优化、数据治理等场景,助力企业实现数据驱动的决策和创新。关键词:数据工程、ETL、数据管道、数据基础设施、Spark、Airflow、Python、SQL、DataOps。
数据湖平台Skill data-lake-platform
数据湖平台技能用于构建和操作生产级数据湖与数据湖屋,涵盖数据摄取、转换、存储、查询和服务,支持批处理、流式处理和治理功能,关键词:数据湖、数据湖屋、数据工程、大数据、分析平台、数据治理、摄取、转换、存储、查询。
电子书文本提取器Skill ebook-extractor
电子书文本提取器是一个用于从EPUB、MOBI、PDF格式电子书中提取纯文本的工具。它支持常见电子书格式,使用Python脚本实现,无需大型语言模型调用,纯文本提取。适用于数据分析、文本处理、阅读转换等场景。关键词:电子书提取、文本转换、Python工具、EPUB、MOBI、PDF、数据提取。
市场索引APISkill market-index
这个技能是一个市场索引工具,用于搜索、发现和浏览跨多个预测市场平台的市场数据。它支持关键词搜索、平台过滤、分类浏览、新市场发现和趋势分析,适用于量化金融、数据分析和市场研究。关键词:市场索引、预测市场、API、搜索、数据检索、量化交易。
仪器数据Allotrope转换器Skill bio-instrument-data
该技能用于将实验室仪器输出文件转换为标准化的Allotrope Simple Model (ASM) JSON格式或扁平化2D CSV,便于在LIMS系统、数据湖中使用或进行下游分析。它支持自动检测仪器类型,并提供ASM JSON、CSV和Python代码输出,帮助数据工程师集成到生产管道中。关键词:仪器数据转换、Allotrope标准化、LIMS系统、数据工程、生物信息学、数据湖、Python解析器。
PDF处理Skill pdf
PDF处理技能是一种使用Python库和工具进行PDF文档操作的技能,包括文本提取、表格提取、PDF创建、合并、分割、表单处理、OCR等。适用于数据提取、文档自动化、数据预处理等场景。关键词:PDF处理、文本提取、表格提取、OCR、Python、数据工程、文档自动化、PDF库。
ZarrPython数据存储库Skill zarr-python
Zarr Python 是一个用于云存储的分块 N 维数组库,支持压缩、并行 I/O 和与 NumPy、Dask、Xarray 的集成,专为大规模科学计算和数据处理而设计。关键词:数据存储、并行计算、云计算、科学计算、大数据处理、Python 库。
Dask并行计算库Skill dask
Dask是一个用于并行和分布式计算的Python库,能够处理超出内存的数据集,提供类似Pandas和NumPy的API,适用于大数据处理、数据工程和科学计算。关键词:并行计算、分布式计算、大数据处理、Python数据工程。
SQL优化模式Skill sql-optimization-patterns
本技能提供SQL查询优化、索引策略和EXPLAIN分析的全面指南,帮助数据工程师和开发者提升数据库性能,消除慢查询。适用于数据库管理、后端开发和数据工程场景。关键词:SQL优化、数据库性能、索引策略、查询计划、EXPLAIN分析、慢查询调试。
ZarrPython库技能Skill zarr-python
Zarr Python是一个用于存储和处理大规模N维数组的Python库,支持分块、压缩、并行I/O和云存储集成,与NumPy、Dask、Xarray兼容,适用于科学计算、数据工程和机器学习流水线。关键词:Zarr Python, 数据存储, 分块数组, 压缩, 云存储, 科学计算, 并行处理, Dask, Xarray
Postgresql技能Skill postgresql
全面协助PostgreSQL开发,由官方文档生成。
数据处理器Skill data-processor
数据处理器是一个用于处理和验证各种数据输入的工具,适用于数据清洗、验证和预处理。关键词包括数据处理、数据验证、Python工具、数据输入处理,方便SEO搜索和数据管理应用。