数据科学 Skill技能列表

4.5

Snakemake工作流管理器Skill snakemake-workflow-manager

Snakemake工作流管理器是一个用于生物信息学和数据分析领域的自动化流程管理工具。该技能支持基于规则的管道执行、DAG工作流调度、集群计算资源管理、Conda环境隔离、检查点恢复机制和性能基准收集。适用于构建可重复、可扩展的科研分析流程,特别适合高通量测序数据处理、批量数据分析和自动化报告生成等场景。 关键词:Snakemake工作流管理, 生物信息学流程自动化, 可重复研究, DAG任务调度, Conda环境管理, 集群计算, 数据分析管道, 工作流检查点, 基准测试, 报告生成

4.5

数据可视化Skill visualizing-data

数据可视化技能提供一个系统框架,用于选择和实现有效的数据可视化,匹配数据特征与分析目的,确保清晰性、可访问性和性能优化。关键词包括数据可视化、图表选择、可访问性、性能优化、数据分析、仪表板构建。

4.5

PDF处理Skill pdf

PDF处理技能是一种使用Python库和工具进行PDF文档操作的技能,包括文本提取、表格提取、PDF创建、合并、分割、表单处理、OCR等。适用于数据提取、文档自动化、数据预处理等场景。关键词:PDF处理、文本提取、表格提取、OCR、Python、数据工程、文档自动化、PDF库。

4.5

KafkaStreamsSkill kafka-streams

Kafka Streams是一个用于构建实时流处理应用程序的库,它提供了一个高级的抽象,允许开发者轻松地表达处理逻辑,同时确保数据的容错性和可扩展性。

4.5

Dask并行计算库Skill dask

Dask是一个用于并行和分布式计算的Python库,能够处理超出内存的数据集,提供类似Pandas和NumPy的API,适用于大数据处理、数据工程和科学计算。关键词:并行计算、分布式计算、大数据处理、Python数据工程。

4.5

数据工程Skill data-engineering

数据工程是一门专注于设计、构建和维护数据管道、数据仓库以及数据质量验证的学科。它核心涉及ETL(提取、转换、加载)流程、使用Apache Spark进行大数据处理、实施数据质量检查,以及设计星型模式等数据仓库结构,旨在确保数据的可靠性、可用性和高效分析,适用于数据驱动决策和商业智能应用。关键词:数据工程,ETL管道,数据仓库,Apache Spark,数据质量,数据沿袭,大数据处理。

4.5

数据架构Skill data-architecture

数据架构技能专注于现代数据平台设计,包括数据湖、数据湖屋、数据仓库和数据网格等模式的选用与实施,涉及数据存储策略、架构权衡和治理。关键词:数据架构、数据湖、数据湖屋、数据网格、数据平台设计、数据存储策略、ACID事务、数据治理。

4.5

提取脚本技能Skill extract-script

提取脚本技能能够从 Mustache 或 SSP 模板自动生成 SQL DDL 脚本,适用于不同数据库平台,支持自定义提取、增量更新和审计功能,提升数据库脚本开发效率。关键词:提取脚本、Mustache 模板、SSP 模板、SQL DDL、数据库脚本生成、增量提取、审计模式。

4.5

Excel转YML转换器Skill xls2yml

Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。

4.5

网页抓取技能Skill using-web-scraping

这个技能使用头less Chrome和DuckDuckGo进行网页抓取和搜索,专注于可靠导航、提取结构化文本、遵守robots.txt和速率限制。用于收集公开网页内容以进行摘要、元数据提取或链接发现。关键词:网页抓取、数据收集、Playwright、DuckDuckGo、自动化、数据提取、SEO优化。

4.5

KPI仪表板设计Skill kpi-dashboard-design

这个技能用于设计和构建关键绩效指标仪表板,以清晰展示业务指标、支持数据分析和决策制定。关键词包括KPI、仪表板、数据可视化、商业智能、数据分析、指标监控。

4.5

模式推断Skill infer-schema

这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。