数据工程 Skill技能列表
仪器数据到Allotrope转换器Skill instrument-data-to-allotrope
该技能用于将实验室仪器输出的文件(如PDF、CSV、Excel、TXT)转换为标准化的Allotrope Simple Model (ASM) JSON格式或扁平化的2D CSV,以支持数据标准化,便于集成到LIMS系统、数据湖或下游分析。功能包括自动检测仪器类型、生成完整的ASM JSON、扁平化CSV和可导出的Python解析代码,适用于数据工程团队。关键词:仪器数据转换,Allotrope格式,数据标准化,LIMS系统,数据工程,Python解析,实验室数据管理,ASM JSON,扁平化CSV。
模式推断Skill infer-schema
这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。
索引技能Skill index
索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。
提取模式技能Skill extract-schema
这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。
阶段技能Skill stage
阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。
数据迁移Skill data-migration
数据迁移技能专注于安全、高效地执行数据库和数据系统的迁移工作,包括规划迁移策略、实施数据转换、确保零停机部署以及设计回滚机制,以维护数据完整性和系统稳定性。关键词:数据库迁移,数据转换,零停机,安全架构,回滚策略,数据完整性。
预加载技能Skill preload
该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。
Excel转YML转换器Skill xls2yml
Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。
ESLoad技能Skill esload
这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。
PDF处理技能Skill pdf
PDF处理技能用于编程方式处理PDF文档,包括文本和表格提取、PDF创建、合并分割、表单处理以及自动化操作。关键词包括:PDF处理、文本提取、表格提取、Python库、自动化、数据提取、文档管理。
数据处理器Skill data-processor
数据处理器是一个用于处理和验证各种数据输入的工具,适用于数据清洗、验证和预处理。关键词包括数据处理、数据验证、Python工具、数据输入处理,方便SEO搜索和数据管理应用。
Twitter/X数据抓取工具Skill twscrape
twscrape 是一个强大的 Python 库,专门用于高效、大规模地抓取 Twitter(现 X)平台的公开数据。它通过 GraphQL API 和账号轮换机制,支持异步并行抓取推文、用户资料、关注者列表和趋势话题等,是构建社交媒体分析、舆情监控和市场研究工具的利器。关键词:Twitter 数据抓取,X 平台爬虫,社交媒体分析,Python 异步爬虫,账号轮换,GraphQL API,数据采集。