数据工程 Skill技能列表

4.5

YAML转Excel转换器Skill yml2xls

该技能用于将 Starlake YAML 数据定义转换为 Excel 电子表格,便于与非技术用户共享数据模型,支持 YAML 和 Excel 之间的双向转换,适用于数据工程、数据治理和数据处理工作流。关键词:YAML 转 Excel, Starlake 数据转换, 数据模型共享, 数据工程工具, ETL 开发, 数据可视化。

4.5

ZarrPython数据存储库Skill zarr-python

Zarr Python 是一个用于云存储的分块 N 维数组库,支持压缩、并行 I/O 和与 NumPy、Dask、Xarray 的集成,专为大规模科学计算和数据处理而设计。关键词:数据存储、并行计算、云计算、科学计算、大数据处理、Python 库。

4.5

PDF处理Skill pdf

PDF处理技能涉及使用Python库(如pypdf、pdfplumber、reportlab)和命令行工具(如pdftotext、qpdf)来处理PDF文档。包括提取文本和表格、创建新PDF、合并和拆分文档、处理表单、添加水印、密码保护等操作。适用于数据提取、文档自动化、报告生成等场景。关键词:PDF处理,文本提取,表格提取,Python,自动化,文档管理,SEO。

4.5

PDF处理Skill pdf

PDF处理技能是一种使用Python库和工具进行PDF文档操作的技能,包括文本提取、表格提取、PDF创建、合并、分割、表单处理、OCR等。适用于数据提取、文档自动化、数据预处理等场景。关键词:PDF处理、文本提取、表格提取、OCR、Python、数据工程、文档自动化、PDF库。

4.5

电子书文本提取器Skill ebook-extractor

电子书文本提取器是一个用于从EPUB、MOBI、PDF格式电子书中提取纯文本的工具。它支持常见电子书格式,使用Python脚本实现,无需大型语言模型调用,纯文本提取。适用于数据分析、文本处理、阅读转换等场景。关键词:电子书提取、文本转换、Python工具、EPUB、MOBI、PDF、数据提取。

4.5

Firecrawl抓取技能Skill firecrawl-scrape

Firecrawl抓取技能是一个通过Firecrawl MCP工具抓取网页并提取内容的技能,支持从URL或搜索查询获取结构化数据,适用于数据采集和网络内容分析,关键词包括:网页抓取、数据提取、Firecrawl、MCP、爬虫、内容抓取、SEO搜索。

4.5

知识图谱构建器Skill knowledge-graph-builder

该技能用于设计和构建知识图谱,以表示实体、关系和语义连接,支持Neo4j、RDF等图数据库的查询模式。核心能力包括图建模、查询语言(如Cypher、SPARQL)、本体设计和图算法应用,适用于知识管理、推荐系统、欺诈检测、根因分析等场景。关键词:知识图谱、图数据库、Neo4j、RDF、语义连接、图算法、Cypher、SPARQL、实体建模。

4.5

Starlake配置技能(完整参考)Skill config

这个技能提供了Starlake数据管道配置的完整参考指南,涵盖环境变量配置、JSON模式验证、生产最佳实践等,适用于数据工程师、ETL开发人员和数据架构师,帮助构建高效的数据处理流程。关键词:Starlake,数据工程,ETL,配置,YAML,JSON模式,数据管道,最佳实践。

4.5

PDF处理技能Skill pdf

PDF处理技能用于编程方式处理PDF文档,包括文本和表格提取、PDF创建、合并分割、表单处理以及自动化操作。关键词包括:PDF处理、文本提取、表格提取、Python库、自动化、数据提取、文档管理。

4.5

仪器数据到Allotrope转换器Skill instrument-data-to-allotrope

该技能用于将实验室仪器输出的文件(如PDF、CSV、Excel、TXT)转换为标准化的Allotrope Simple Model (ASM) JSON格式或扁平化的2D CSV,以支持数据标准化,便于集成到LIMS系统、数据湖或下游分析。功能包括自动检测仪器类型、生成完整的ASM JSON、扁平化CSV和可导出的Python解析代码,适用于数据工程团队。关键词:仪器数据转换,Allotrope格式,数据标准化,LIMS系统,数据工程,Python解析,实验室数据管理,ASM JSON,扁平化CSV。

4.5

Excel转YML转换器Skill xls2yml

Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。

4.5

阶段技能Skill stage

阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。