数据科学 Skill技能列表
插值逼近Skill interpolation-approximation
插值逼近是一种数值分析方法,用于通过已知数据点构建函数或曲线,实现数据拟合、函数近似和预测建模。核心功能包括多项式插值、样条插值、最小二乘拟合和误差分析,广泛应用于量化金融、数据科学、工程计算和科学研究等领域。关键词:插值方法、逼近算法、数据拟合、数值分析、函数近似、量化金融、预测建模、误差估计。
数据处理器Skill data-processor
数据处理器是一个用于处理和验证各种数据输入的工具,适用于数据清洗、验证和预处理。关键词包括数据处理、数据验证、Python工具、数据输入处理,方便SEO搜索和数据管理应用。
提取技能Skill extract
提取技能是Starlake工具中的一项功能,用于从JDBC数据库源提取模式和数据。它将数据库模式的元数据提取为YAML文件,并将实际数据提取到文件中。这个技能结合了模式提取和数据提取,是一个方便的ETL命令,适用于数据工程、数据仓库和ETL开发工作流,帮助自动化数据处理任务。关键词:数据提取,数据库模式,JDBC,ETL,数据工程,数据仓库,Starlake。
索引技能Skill index
索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。
作业技能Skill job
starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。
数据加载技能Skill load
此技能用于将数据文件从待处理区域高效加载到数据仓库中,实现ETL(提取、转换、加载)过程。它包括数据验证以符合模式、应用写策略(如APPEND、OVERWRITE)、强制执行数据质量期望(如唯一性检查)和隐私转换。支持多种文件格式(JSON、CSV、XML),并通过配置灵活管理数据加载。关键词:数据加载,ETL,数据仓库,数据验证,写策略,数据质量,隐私转换,文件格式,配置管理。
预加载技能Skill preload
该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。
表依赖关系生成器Skill table-dependencies
该技能用于根据数据库表中的外键关系,自动生成可视化表依赖图,帮助理解数据模型结构。关键词:表依赖、实体关系图、数据模型、可视化、YAML配置、数据库设计、数据工程。
Parquet转CSV工具Skill parquet2csv
这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。
提取模式技能Skill extract-schema
这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。
模式推断Skill infer-schema
这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。
Excel作业定义转YAML技能Skill xls2ymljob
这是一个用于数据工程的工具,能够将Excel电子表格中描述的任务定义高效转换为Starlake YAML配置文件,支持批量处理和策略集成,适用于ETL开发和数据治理。关键词:Excel, YAML, Starlake, 任务转换, ETL开发, 数据工程, 数据治理, 配置文件。