数据科学 Skill技能列表
创建家庭友好状态跟踪表Skill "create-family-friendly-status-tracker"
这个技能用于生成简化的视觉状态跟踪表,帮助非专家观众如家庭成员理解复杂过程的进度和下一步,使用清晰语言和视觉指标,便于任务跟踪、角色分配和进度监控。关键词包括状态跟踪、家庭友好、视觉沟通、简化语言、非专家、进度表、任务管理。
ApacheBeam核心概念技能Skill beam-concepts
Apache Beam是一个用于批处理和流数据处理的开源编程模型,支持构建可移植的数据管道,适用于数据工程、ETL开发和云原生应用。关键词:数据处理、批处理、流处理、Apache Beam、数据管道、数据工程、ETL开发、云原生。
电子书文本提取器Skill ebook-extractor
这是一个Python工具技能,用于从EPUB、MOBI和PDF电子书中提取纯文本,支持自动化转换和分析,适用于数据处理、文本挖掘、电子书阅读和自动化处理。关键词:电子书提取、文本转换、Python脚本、数据处理、自动化工具、电子书分析。
数据摄入技能Skill ingesting-data
数据摄入技能专注于从多种源高效加载数据到数据库和系统的模式与实践。它涵盖ETL开发、云存储集成、API消费、流式数据处理等,支持批量处理和实时摄入,适用于数据工程、数据分析、ETL管道构建等场景。关键词:数据摄入、ETL开发、数据工程、云存储、API集成、实时数据处理、数据库迁移、更改数据捕获、ETL框架。
Polars数据处理库Skill polars
Polars是一个基于Apache Arrow的快速内存DataFrame库,支持惰性评估和并行执行,适用于处理1-100GB的数据集,用于ETL管道、数据清洗、数据分析、pandas迁移和数据管道优化,提高数据处理效率和性能。关键词:数据处理,DataFrame,Apache Arrow,ETL,数据工程,数据科学,并行执行,内存计算。
流式细胞仪文件处理库Skill flowio
FlowIO是一个轻量级Python库,用于读取、写入和处理流式细胞仪标准(FCS)文件,支持FCS版本2.0-3.1。它能提取事件数据为NumPy数组,读取元数据和通道信息,并转换为CSV或DataFrame格式,适用于流式细胞仪数据预处理和分析。关键词:Python库,FCS文件,流式细胞仪数据,数据预处理,NumPy,数据分析。
视觉叙事设计Skill visual-storytelling-design
视觉叙事设计是一种专业能力,用于将数据转化为引人入胜的视觉叙事,包括数据新闻、演示文稿、信息图等,通过叙事结构传达数据洞察,提高传达效率和理解度。关键词:数据叙事、视觉故事、信息图、数据可视化、演示设计、叙事结构。
Postgresql技能Skill postgresql
全面协助PostgreSQL开发,由官方文档生成。
Snakemake工作流管理器Skill snakemake-workflow-manager
Snakemake工作流管理器是一个用于生物信息学和数据分析领域的自动化流程管理工具。该技能支持基于规则的管道执行、DAG工作流调度、集群计算资源管理、Conda环境隔离、检查点恢复机制和性能基准收集。适用于构建可重复、可扩展的科研分析流程,特别适合高通量测序数据处理、批量数据分析和自动化报告生成等场景。 关键词:Snakemake工作流管理, 生物信息学流程自动化, 可重复研究, DAG任务调度, Conda环境管理, 集群计算, 数据分析管道, 工作流检查点, 基准测试, 报告生成
生成资产价格图表Skill generate-asset-price-chart
该技能用于从预加载的OHLC数据生成K线图图像,专注于图表渲染逻辑,不涉及数据获取。适用于量化金融、股票分析和数据可视化场景,关键词包括K线图、OHLC数据、图表生成、数据可视化、量化交易和股票评估。
数据架构Skill data-architecture
数据架构技能专注于现代数据平台设计,包括数据湖、数据湖屋、数据仓库和数据网格等模式的选用与实施,涉及数据存储策略、架构权衡和治理。关键词:数据架构、数据湖、数据湖屋、数据网格、数据平台设计、数据存储策略、ACID事务、数据治理。
PDF处理Skill pdf
PDF处理技能是一种使用Python库和工具进行PDF文档操作的技能,包括文本提取、表格提取、PDF创建、合并、分割、表单处理、OCR等。适用于数据提取、文档自动化、数据预处理等场景。关键词:PDF处理、文本提取、表格提取、OCR、Python、数据工程、文档自动化、PDF库。