数据科学 Skill技能列表
Excel文件处理技能Skill document-processing-xlsx
此技能用于处理、解析、创建和操作Excel电子表格(.xlsx, .xls),使用库如SheetJS、exceljs,支持数据导入导出、生成动态报告、自动化电子表格操作。适用于数据迁移、财务报告生成、批量数据处理等场景,关键词包括Excel、电子表格、数据导入、数据导出、报告自动化、SheetJS、xlsx、数据处理、自动化工具。
电子书文本提取器Skill ebook-extractor
这是一个Python工具技能,用于从EPUB、MOBI和PDF电子书中提取纯文本,支持自动化转换和分析,适用于数据处理、文本挖掘、电子书阅读和自动化处理。关键词:电子书提取、文本转换、Python脚本、数据处理、自动化工具、电子书分析。
DAG部署技能Skill dag-deploy
DAG部署技能专用于自动化部署生成的DAG文件到目标目录,如Airflow DAGs文件夹,支持清理和文件组织,优化数据管道管理,适用于数据工程、ETL开发和DevOps场景,提升数据工作流效率。
比较Skill compare
此 Starlake compare 技能用于数据工程项目的版本对比,生成差异报告,支持 Git 集成、文件路径和标签比较,便于审查 schema 更改、配置更新和发布管理。关键词包括 Starlake、比较、差异报告、schema 变化、数据工程、Git 版本控制、ETL 开发、数据治理,提升项目管理效率。
时间序列分析师Skill time-series-analyst
该技能专注于时间序列数据的分析,用于识别模式、趋势、季节性和异常,并通过统计方法如ARIMA和机器学习方法如Prophet进行预测。适用于数据分析、预测建模和量化金融等领域。关键词:时间序列分析、预测建模、异常检测、数据挖掘、机器学习。
列级血缘技能Skill col-lineage
这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。
提取BigQuery架构Skill extract-bq-schema
此技能用于直接从Google BigQuery数据集中提取表架构,并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建,提升元数据管理效率。关键词:BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。
验证技能Skill validate
验证技能用于验证Starlake项目配置的YAML文件语法、模式合规性、连接引用等,确保在运行时前捕获配置错误,提升数据治理和ETL流程的可靠性。关键词:验证、配置管理、YAML语法、Starlake工具、数据治理、ETL开发、错误预防。
DatabaseLockingStrategiesSkill DatabaseLockingStrategies
数据库锁定策略是用于管理共享数据并发访问的机制,确保数据完整性,防止多个事务同时以可能造成不一致的方式修改相同数据。关键概念包括并发控制、锁定类型(共享锁定、独占锁定)、锁定粒度(行级、页面级、表级锁定)以及多版本并发控制(MVCC)。此技能涉及数据库事务、锁定机制、隔离级别和死锁处理等。
DatabaseMigrationsSkill DatabaseMigrations
数据库迁移是用于模式演变和数据转换的数据库迁移策略和工具,它们帮助团队以受控、可复现的方式发展数据库结构,同时维护数据完整性并最小化停机时间。
数据库优化技术Skill DatabaseOptimizationTechniques
数据库优化技术是一系列用于提升数据库查询性能、降低资源消耗、确保数据高效访问的方法和策略。关键词包括查询优化、索引策略、连接池、缓存策略、数据库维护等。
提取技能Skill extract
提取技能是Starlake工具中的一项功能,用于从JDBC数据库源提取模式和数据。它将数据库模式的元数据提取为YAML文件,并将实际数据提取到文件中。这个技能结合了模式提取和数据提取,是一个方便的ETL命令,适用于数据工程、数据仓库和ETL开发工作流,帮助自动化数据处理任务。关键词:数据提取,数据库模式,JDBC,ETL,数据工程,数据仓库,Starlake。