数据工程 Skill技能列表

4.5

ClickHouse高性能分析模式Skill clickhouse-io

本技能文档系统介绍了ClickHouse数据库在高性能分析场景下的核心模式与实践。涵盖表设计优化、查询性能调优、数据插入策略、物化视图应用、性能监控方法以及常见分析查询模式。适用于数据工程师、数据分析师和开发人员构建实时分析系统、数据仓库和大规模数据处理平台。关键词:ClickHouse优化、OLAP数据库、实时分析、数据工程、查询性能、大数据处理、数据仓库、ETL管道、物化视图、时间序列分析。

4.5

时序数据库技能Skill timescaledb

Timescaledb技能提供全面的时序数据库开发支持,涵盖超表管理、连续聚合、数据压缩和实时分析等核心功能。本技能专为数据库开发者、数据工程师和DevOps团队设计,包含官方文档、代码示例和最佳实践指南,帮助用户高效处理时间序列数据,优化查询性能,实现大规模时序数据存储与分析解决方案。

4.5

仪器数据到Allotrope转换器Skill instrument-data-to-allotrope

该技能用于将实验室仪器输出的文件(如PDF、CSV、Excel、TXT)转换为标准化的Allotrope Simple Model (ASM) JSON格式或扁平化的2D CSV,以支持数据标准化,便于集成到LIMS系统、数据湖或下游分析。功能包括自动检测仪器类型、生成完整的ASM JSON、扁平化CSV和可导出的Python解析代码,适用于数据工程团队。关键词:仪器数据转换,Allotrope格式,数据标准化,LIMS系统,数据工程,Python解析,实验室数据管理,ASM JSON,扁平化CSV。

4.5

TimescaleDB时序数据库技能Skill timescaledb

TimescaleDB时序数据库技能是专门用于PostgreSQL时间序列数据库扩展的AI助手。提供TimescaleDB开发支持、超表管理、连续聚合、数据压缩、实时分析等功能。适用于时序数据处理、物联网监控、金融数据分析、DevOps监控等场景。关键词:TimescaleDB、时序数据库、PostgreSQL扩展、超表、时间序列分析、数据压缩、实时分析、物联网数据、金融数据、DevOps监控。

4.5

Twitter数据抓取工具Skill twscrape

twscrape是一个专业的Python库,专门用于Twitter/X社交媒体数据抓取和爬虫开发。通过GraphQL API实现高效数据采集,支持多账号轮换管理、异步并行操作、代理配置和会话持久化。适用于社交媒体监控、舆情分析、用户行为研究、趋势挖掘和大规模数据收集场景。关键词:Twitter爬虫、社交媒体数据采集、Python数据抓取、账号轮换、GraphQL API、异步爬虫、数据挖掘、舆情监控。

4.5

预加载技能Skill preload

该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。

4.5

创建Bauplan数据管道Skill creating-bauplan-pipelines

本技能是Bauplan数据工程平台的详细指南,用于创建和管理数据管道项目。它涵盖了从项目初始化、DAG(有向无环图)设计、SQL/Python模型编写、到严格模式验证和物化策略的全流程。核心功能包括:数据管道开发、ETL/ELT流程构建、数据转换模型(SQL/Python)、数据质量检查、I/O下推优化、分支安全管理以及自动化工作流。适用于数据工程师、数据分析师和开发人员构建可维护、高性能的数据处理流水线。

4.5

WAP数据安全摄取技能Skill wap-ingestion

WAP数据安全摄取技能是一种基于写-审计-发布模式的数据工程解决方案,专门用于从AWS S3云存储安全导入数据到bauplan数据平台。该技能通过临时分支隔离、数据质量检查、原子性合并等机制,确保数据加载过程的安全可靠,防止脏数据污染生产环境。适用于金融风控、企业数据仓库、ETL流程、数据湖管理等场景,支持Parquet、CSV、JSONL等多种数据格式的安全摄取。

4.5

引导技能Skill bootstrap

引导技能是Starlake数据工程工具的核心功能,用于快速创建新的项目结构和配置文件。它支持使用模板进行项目搭建,包含标准目录、配置示例和数据,适用于数据工程师进行ETL开发、数据加载和转换。关键词:Starlake、项目引导、模板、配置、数据工程、ETL开发。

4.5

PDF处理技能Skill pdf

PDF处理技能用于编程方式处理PDF文档,包括文本和表格提取、PDF创建、合并分割、表单处理以及自动化操作。关键词包括:PDF处理、文本提取、表格提取、Python库、自动化、数据提取、文档管理。

4.5

数据迁移Skill data-migration

数据迁移技能专注于安全、高效地执行数据库和数据系统的迁移工作,包括规划迁移策略、实施数据转换、确保零停机部署以及设计回滚机制,以维护数据完整性和系统稳定性。关键词:数据库迁移,数据转换,零停机,安全架构,回滚策略,数据完整性。

4.5

流处理Skill stream-processing

流处理技能专注于实时数据处理技术,用于构建事件驱动系统和流分析应用。它涉及使用框架如Apache Kafka、Apache Flink等处理无界数据流,支持低延迟响应、窗口操作、状态管理和精确一次交付。关键词:流处理、实时数据、事件流、Kafka、Flink、流分析、数据管道、事件驱动架构。