数据工程 Skill技能列表
数据架构Skill data-architecture
数据架构技能专注于现代数据平台设计,包括数据湖、数据湖屋、数据仓库和数据网格等模式的选用与实施,涉及数据存储策略、架构权衡和治理。关键词:数据架构、数据湖、数据湖屋、数据网格、数据平台设计、数据存储策略、ACID事务、数据治理。
PDF处理Skill pdf
PDF处理技能涉及使用Python库(如pypdf、pdfplumber、reportlab)和命令行工具(如pdftotext、qpdf)来处理PDF文档。包括提取文本和表格、创建新PDF、合并和拆分文档、处理表单、添加水印、密码保护等操作。适用于数据提取、文档自动化、报告生成等场景。关键词:PDF处理,文本提取,表格提取,Python,自动化,文档管理,SEO。
Parquet转CSV工具Skill parquet2csv
这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。
数据转换Skill transforming-data
数据转换技能涉及使用ETL/ELT模式、SQL(如dbt)、Python库(如pandas、polars、PySpark)和编排工具(如Airflow)将原始数据处理成可用于分析的数据集,适用于数据管道构建、增量加载、性能优化和数据质量保障。关键词:数据转换、ETL开发、数据工程、数据管道、dbt、Airflow、SQL、Python、数据仓库。
KafkaStreamsSkill kafka-streams
Kafka Streams是一个用于构建实时流处理应用程序的库,它提供了一个高级的抽象,允许开发者轻松地表达处理逻辑,同时确保数据的容错性和可扩展性。
DatabaseLockingStrategiesSkill DatabaseLockingStrategies
数据库锁定策略是用于管理共享数据并发访问的机制,确保数据完整性,防止多个事务同时以可能造成不一致的方式修改相同数据。关键概念包括并发控制、锁定类型(共享锁定、独占锁定)、锁定粒度(行级、页面级、表级锁定)以及多版本并发控制(MVCC)。此技能涉及数据库事务、锁定机制、隔离级别和死锁处理等。
MongoDB数据库操作技能Skill mongodb
这个技能提供MongoDB数据库的全面指导,涵盖文档操作、查询、聚合、索引和最佳实践,适用于处理MongoDB数据、编写高效查询和优化数据库设计的场景。关键词包括MongoDB、数据库管理、文档存储、NoSQL、查询优化、索引策略。
数据复制设置Skill data-replication-setup
本文档提供了数据库复制的详细指南,包括主从复制、多主复制、复制监控和故障转移等,旨在帮助实现高可用性和灾难恢复。
数据库架构设计Skill database-schema-design
本skill提供数据库架构设计的详细指导,包括规范化策略、表设计模式、约束策略、数据类型选择、架构演进和性能优化等,旨在帮助设计出可扩展、高效的数据库架构。
ESLoad技能Skill esload
这是一个用于将数据从文件(如Parquet、JSON)加载到Elasticsearch索引的工具,支持自定义映射、文档ID和时间戳索引命名,适用于数据工程和ETL流程,方便数据集成与处理。关键词:Elasticsearch, 数据加载, Parquet, JSON, 映射, 文档ID, 时间戳索引, ETL, 数据工程。
架构探索技能Skill schema-exploration
这个技能用于探索和理解数据库结构,包括列出表、获取列信息、映射表关系等,帮助数据分析师、数据库管理员和开发者优化数据查询和管理。关键词:数据库探索、架构分析、SQL工具、数据工程、数据可视化。
PDF处理Skill pdf
PDF处理技能用于通过编程方式提取PDF文档中的文本和表格,创建、合并、分割PDF文件,以及填充表单。适用于文档自动化处理、数据提取和分析,常用于数据工程和软件开发场景。在股票量化交易中,此技能可辅助处理财务报告和交易文档,提取关键数据进行分析。关键词:PDF处理,文档提取,Python库,数据工程,自动化处理,量化交易,数据提取。