数据工程 Skill技能列表
数据迁移规划器Skill afrexai-data-migration
数据迁移规划器是一款用于系统间数据迁移的专业工具,提供完整的迁移解决方案。它涵盖数据迁移规划、模式映射、ETL管道设计、数据验证和回滚策略。支持从Salesforce到HubSpot CRM、MySQL到PostgreSQL等多种系统迁移场景。包含数据发现、模式映射、ETL流程、验证测试和切换计划五个阶段,确保数据迁移的安全可靠。适用于企业系统升级、数据仓库迁移、云迁移等场景。关键词:数据迁移,ETL管道,模式映射,数据验证,迁移规划,系统迁移,数据工程,迁移策略,数据治理,迁移操作手册
Snakemake工作流管理器Skill snakemake-workflow-manager
Snakemake工作流管理器是一个用于生物信息学和数据分析领域的自动化流程管理工具。该技能支持基于规则的管道执行、DAG工作流调度、集群计算资源管理、Conda环境隔离、检查点恢复机制和性能基准收集。适用于构建可重复、可扩展的科研分析流程,特别适合高通量测序数据处理、批量数据分析和自动化报告生成等场景。 关键词:Snakemake工作流管理, 生物信息学流程自动化, 可重复研究, DAG任务调度, Conda环境管理, 集群计算, 数据分析管道, 工作流检查点, 基准测试, 报告生成
ClickHouse高性能分析模式Skill clickhouse-io
本技能文档系统介绍了ClickHouse数据库在高性能分析场景下的核心模式与实践。涵盖表设计优化、查询性能调优、数据插入策略、物化视图应用、性能监控方法以及常见分析查询模式。适用于数据工程师、数据分析师和开发人员构建实时分析系统、数据仓库和大规模数据处理平台。关键词:ClickHouse优化、OLAP数据库、实时分析、数据工程、查询性能、大数据处理、数据仓库、ETL管道、物化视图、时间序列分析。
时序数据库技能Skill timescaledb
Timescaledb技能提供全面的时序数据库开发支持,涵盖超表管理、连续聚合、数据压缩和实时分析等核心功能。本技能专为数据库开发者、数据工程师和DevOps团队设计,包含官方文档、代码示例和最佳实践指南,帮助用户高效处理时间序列数据,优化查询性能,实现大规模时序数据存储与分析解决方案。
时序数据库专家Skill timescaledb
Timescaledb技能是一个专注于PostgreSQL时序数据库扩展的AI助手。它提供全面的开发支持,涵盖超表管理、连续聚合、数据压缩、实时分析等核心功能。适用于数据库开发、时间序列数据处理、物联网数据分析、金融量化系统等场景。关键词:TimescaleDB, 时序数据库, PostgreSQL扩展, 时间序列分析, 超表, 数据压缩, 实时分析, 数据库优化, IoT数据处理, 量化金融数据存储。
TimescaleDB时序数据库技能Skill timescaledb
TimescaleDB时序数据库技能是专门用于PostgreSQL时间序列数据库扩展的AI助手。提供TimescaleDB开发支持、超表管理、连续聚合、数据压缩、实时分析等功能。适用于时序数据处理、物联网监控、金融数据分析、DevOps监控等场景。关键词:TimescaleDB、时序数据库、PostgreSQL扩展、超表、时间序列分析、数据压缩、实时分析、物联网数据、金融数据、DevOps监控。
创建Bauplan数据管道Skill creating-bauplan-pipelines
本技能是Bauplan数据工程平台的详细指南,用于创建和管理数据管道项目。它涵盖了从项目初始化、DAG(有向无环图)设计、SQL/Python模型编写、到严格模式验证和物化策略的全流程。核心功能包括:数据管道开发、ETL/ELT流程构建、数据转换模型(SQL/Python)、数据质量检查、I/O下推优化、分支安全管理以及自动化工作流。适用于数据工程师、数据分析师和开发人员构建可维护、高性能的数据处理流水线。
WAP数据安全摄取技能Skill wap-ingestion
WAP数据安全摄取技能是一种基于写-审计-发布模式的数据工程解决方案,专门用于从AWS S3云存储安全导入数据到bauplan数据平台。该技能通过临时分支隔离、数据质量检查、原子性合并等机制,确保数据加载过程的安全可靠,防止脏数据污染生产环境。适用于金融风控、企业数据仓库、ETL流程、数据湖管理等场景,支持Parquet、CSV、JSONL等多种数据格式的安全摄取。
DatabaseMigrationsSkill DatabaseMigrations
数据库迁移是用于模式演变和数据转换的数据库迁移策略和工具,它们帮助团队以受控、可复现的方式发展数据库结构,同时维护数据完整性并最小化停机时间。
数据库管理Skill managing-databases
数据库管理技能专注于指导PostgreSQL、DuckDB、Parquet和PGVector的架构决策,用于设计数据库模式、选择存储策略、优化查询性能、调整维护配置、实施向量搜索,并诊断OLTP、OLAP和相似性搜索工作负载中的性能问题。关键词:数据库管理,PostgreSQL,DuckDB,Parquet,PGVector,架构设计,性能优化,数据工程。
日志解析与导入SOPSkill "self/import/file_path"
此技能是定义和执行日志解析的标准操作程序(SOP),用于处理Apache、Nginx、Syslog、JSON和自定义等多种日志格式,通过数据类和LogEntry类表示解析后的日志条目。它帮助用户标准化日志处理流程,提高数据解析效率,便于数据收集和分析。关键词:日志解析、SOP、文件导入、Apache日志、Nginx日志、Syslog、JSON日志、自定义日志、数据工程、数据类、LogEntry。
数据分析工程Skill data-analytics-engineering
数据分析工程是一种技能,专注于构建可靠的数据指标和准备商业智能(BI)系统。它涉及定义指标和维度模型、构建数据转换层、实施数据质量测试、以及文档化数据集和数据血统。适用于需要数据建模、指标定义或分析数据处理的场景。关键词:数据分析工程、数据建模、指标定义、数据质量、BI准备、dbt、SQL转换。