数据工程 Skill技能列表

4.5

模式推断Skill infer-schema

这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。

4.5

流数据处理Skill streaming-data

这个技能用于构建事件流系统和实时数据管道,涵盖消息代理(如Kafka、Pulsar)、流处理器(如Flink、Spark)、生产者/消费者模式、事件溯源和变更数据捕获(CDC)等。适用于微服务通信、实时分析、数据集成、IoT平台和高频交易系统等场景。关键词:流数据处理、实时数据管道、事件驱动架构、Kafka、Flink、数据工程、微服务、CDC、事件溯源。

4.5

提取BigQuery架构Skill extract-bq-schema

此技能用于直接从Google BigQuery数据集中提取表架构,并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建,提升元数据管理效率。关键词:BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。

4.5

架构探索技能Skill schema-exploration

这个技能用于探索和理解数据库结构,包括列出表、获取列信息、映射表关系等,帮助数据分析师、数据库管理员和开发者优化数据查询和管理。关键词:数据库探索、架构分析、SQL工具、数据工程、数据可视化。

4.5

提取模式技能Skill extract-schema

这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。

4.5

PDF处理技能Skill pdf

PDF处理技能用于编程方式处理PDF文档,包括文本和表格提取、PDF创建、合并分割、表单处理以及自动化操作。关键词包括:PDF处理、文本提取、表格提取、Python库、自动化、数据提取、文档管理。

4.5

网页抓取技能Skill using-web-scraping

这个技能使用头less Chrome和DuckDuckGo进行网页抓取和搜索,专注于可靠导航、提取结构化文本、遵守robots.txt和速率限制。用于收集公开网页内容以进行摘要、元数据提取或链接发现。关键词:网页抓取、数据收集、Playwright、DuckDuckGo、自动化、数据提取、SEO优化。

4.5

DAG部署技能Skill dag-deploy

DAG部署技能专用于自动化部署生成的DAG文件到目标目录,如Airflow DAGs文件夹,支持清理和文件组织,优化数据管道管理,适用于数据工程、ETL开发和DevOps场景,提升数据工作流效率。

4.5

数据库优化技术Skill DatabaseOptimizationTechniques

数据库优化技术是一系列用于提升数据库查询性能、降低资源消耗、确保数据高效访问的方法和策略。关键词包括查询优化、索引策略、连接池、缓存策略、数据库维护等。

4.5

PDF处理Skill pdf

PDF处理技能用于通过编程方式提取PDF文档中的文本和表格,创建、合并、分割PDF文件,以及填充表单。适用于文档自动化处理、数据提取和分析,常用于数据工程和软件开发场景。在股票量化交易中,此技能可辅助处理财务报告和交易文档,提取关键数据进行分析。关键词:PDF处理,文档提取,Python库,数据工程,自动化处理,量化交易,数据提取。

4.5

索引技能Skill index

索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。

4.5

Excel转YML转换器Skill xls2yml

Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。