数据科学 Skill技能列表
高级数据科学家Skill senior-data-scientist
这是一个世界级的高级数据科学家技能集,专注于构建生产级的AI/ML/数据系统。它集成了统计建模、因果推断、A/B测试、特征工程、模型评估与部署等核心能力,并遵循MLOps和DataOps最佳实践。适用于需要设计复杂实验、开发高精度预测模型、进行深度因果分析以及推动企业数据驱动决策的场景。关键词:数据科学,机器学习,统计建模,A/B测试,特征工程,模型部署,MLOps,Python,SQL,大数据分析,人工智能系统。
Plotly可视化库Skill plotly
Plotly 是一个功能强大的 Python 库,专门用于创建交互式和高质量的图表,支持散点图、线图、条形图、热力图、K线图等40多种图表类型,广泛应用于数据分析、科学可视化和金融图表创建。关键词:交互式可视化、Python 绘图库、数据可视化、图表工具、数据分析、科学图表、金融图表。
提取BigQuery架构Skill extract-bq-schema
此技能用于直接从Google BigQuery数据集中提取表架构,并将其转换为Starlake YAML配置文件。适用于数据工程、ETL开发和数据仓库构建,提升元数据管理效率。关键词:BigQuery、架构提取、Starlake、YAML、数据工程、ETL、数据仓库、元数据。
提取脚本技能Skill extract-script
提取脚本技能能够从 Mustache 或 SSP 模板自动生成 SQL DDL 脚本,适用于不同数据库平台,支持自定义提取、增量更新和审计功能,提升数据库脚本开发效率。关键词:提取脚本、Mustache 模板、SSP 模板、SQL DDL、数据库脚本生成、增量提取、审计模式。
作业技能Skill job
starlake作业技能是用于运行数据处理作业的命令行工具,作为transform命令的别名,支持运行指定作业及其递归依赖,适用于数据工程和ETL开发场景。关键词:starlake, 作业, transform, 数据处理, ETL, 命令行, 数据转换, 数据仓库, 自动化任务。
数据库技能Skill databases
该技能专注于MongoDB和PostgreSQL数据库的管理与操作,涵盖数据建模、查询编写、性能优化、索引管理、数据库迁移、备份恢复策略等关键方面。适用于数据库管理员、后端开发者和数据工程师,提升数据库处理效率和系统稳定性。关键词:MongoDB, PostgreSQL, 数据库管理, 查询优化, 数据建模, 性能调优
模式推断Skill infer-schema
这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。
数据管道架构师Skill data-pipeline-architect
数据管道架构师技能专注于设计和实现高效、可靠的数据处理流程,涵盖ETL与ELT模式、工作流编排、错误处理和数据质量验证,适用于数据仓库、数据湖等场景。关键词:数据管道、ETL开发、ELT模式、数据工程、数据质量、编排工具、Airflow、dbt、数据仓库、数据处理。
预加载技能Skill preload
该技能用于在数据加载流程中检查landing或pending区域的文件可用性,确保文件就绪后触发加载,适用于数据工程、ETL开发和自动化编排,关键词:文件检查、数据加载、编排、ETL、数据仓库、预加载。
Parquet转CSV工具Skill parquet2csv
这个技能用于将Parquet格式的数据文件转换为CSV格式,实现数据格式转换和导出功能。适用于数据工程、ETL处理和数据兼容性场景。关键词:Parquet, CSV, 数据转换, Spark, 数据导出, 格式转换, 数据工程。
ACL依赖关系图生成技能Skill acl-dependencies
该技能用于生成基于YAML配置中ACL(访问控制列表)定义的用户/组与数据库表之间访问权限的可视化依赖关系图。关键词:ACL、访问控制、依赖关系、可视化图、数据安全、权限管理、YAML配置、数据治理、DevOps工具。
索引技能Skill index
索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。