数据科学 Skill技能列表
文档网站生成技能Skill site
此技能专用于生成 Starlake 项目的自动化文档网站,涵盖所有数据领域、表结构、属性定义、转换逻辑及关系图,支持 Docusaurus MDX 和 JSON 多种输出格式,便于数据治理、可视化分析和项目协作,提升数据透明度和可维护性。关键词包括:数据文档、网站生成、数据治理、Starlake、Docusaurus、JSON 输出、自动化文档。
BI语义层生成器Skill BISemanticLayerGenerator
BI语义层生成器是一款自动化工具,用于将数据仓库中的维度模型(如星型模式、雪花模式)快速转换为商业智能(BI)工具(如Looker、Tableau、Power BI、Cube.js、dbt)可直接识别和使用的语义层定义。它自动生成计算度量、层次结构、安全过滤器和连接路径,显著提升BI报表和仪表板的开发效率与一致性。关键词:BI语义层,维度模型转换,LookML生成,Tableau数据模型,Power BI语义模型,自动化ETL,商业智能开发,数据仓库集成。
离散事件仿真器Skill discrete-event-simulator
离散事件仿真器是一种基于Python SimPy框架的专业仿真技能,用于对复杂系统进行建模、分析和优化。该技能支持随机过程建模、资源容量规划、队列管理、预热期检测和统计输出分析,广泛应用于制造系统、服务系统、供应链和业务流程的仿真优化。关键词:离散事件仿真、SimPy、随机过程建模、系统优化、置信区间分析、制造仿真、队列系统、资源规划、Python仿真、蒙特卡洛模拟。
队列分析器Skill cohort-analyzer
队列分析器是一款专注于商业数据分析的技能工具,用于深入分析客户队列、收入留存、生命周期价值(LTV)和客户获取成本(CAC)等关键指标。它通过构建收入队列矩阵、绘制留存曲线、跟踪LTV/CAC趋势,帮助企业评估客户质量、洞察业务健康状况和单位经济学的演变。适用于风险投资、财务分析、业务增长和客户成功等场景。关键词:队列分析、收入留存、LTV/CAC、客户生命周期价值、留存曲线、单位经济学、风险投资分析、业务健康度评估。
列级血缘技能Skill col-lineage
这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。
GoogleBigQuery自动化Skill googlebigquery-automation
该技能通过 Rube MCP 自动化 Google BigQuery 任务,包括运行 SQL 查询、探索数据集和元数据、执行 MBQL 查询等,适用于数据分析和商业智能场景。关键词:Google BigQuery, Metabase, Rube MCP, SQL 查询, 数据分析, 商业智能, 自动化, 数据工程。
URL抓取器Skill url-fetcher
该技能用于从指定网页URL自动抓取并提取干净的文本内容,去除HTML噪音,适用于数据收集、内容分析、文档处理和网络爬虫等场景,支持参数化设置以提高效率。关键词:网页抓取、文本提取、URL解析、HTML清理、数据获取、网络爬虫、内容分析、自动化工具。
BigQueryCLI数据查询技能指南Skill bigquery
本技能指南详细介绍了如何使用BigQuery命令行工具(bq)进行数据仓库查询和元数据检查,特别针对Monzo公司的数据分析项目。内容涵盖INFORMATION_SCHEMA元数据查询、数据敏感性处理、表结构检查、行数统计、模式匹配等核心功能,适用于数据工程师、分析师和开发人员进行安全高效的数据探索和验证工作。关键词:BigQuery CLI, bq命令, 数据仓库查询, INFORMATION_SCHEMA, 元数据检查, 数据敏感性, 表结构分析, 数据工程工具, Google Cloud, 数据分析工作流
OBT设计优化器Skill OBTDesignOptimizer
OBT设计优化器是一款专注于数据仓库单一大表(One Big Table)模式设计与优化的专业工具。该技能通过智能分析源模型结构和查询模式,提供列选择优化、反规范化策略、分区聚类设计等核心功能,帮助用户在存储性能与查询效率之间找到最佳平衡点。适用于大数据分析、商业智能报表、数据仓库建设等场景,支持Snowflake、BigQuery、Redshift等主流云数据平台。
YML到DDL技能Skill yml2ddl
yml2ddl技能是一个数据工程工具,用于从Starlake YAML定义自动生成SQL DDL(数据定义语言)语句,支持BigQuery、Snowflake、PostgreSQL等多种目标数据仓库。它通过类型映射简化数据库表结构的创建和管理,提升数据管道开发效率,适用于数据仓库建设和数据治理场景。关键词:SQL DDL, YAML, 数据仓库, 数据工程, 数据库管理, ETL开发, Starlake。
时间序列预测器Skill time-series-forecaster
时间序列预测器是一个用于业务指标预测和需求规划的AI技能工具。它整合了经典统计方法(如ARIMA、ETS)、机器学习(如XGBoost、LightGBM)和深度学习(如Prophet、N-BEATS)等多种模型,支持自动模型选择、集成预测、不确定性量化和季节性分解。该技能适用于销售预测、库存管理、财务规划等商业场景,帮助企业进行数据驱动的决策。关键词:时间序列预测,业务指标预测,需求规划,ARIMA,Prophet,机器学习预测,深度学习预测,季节性分析,预测区间,商业智能。
SQL模式速查手册Skill sql-patterns
本技能提供SQL常用模式、公共表表达式(CTE)、窗口函数、JOIN类型、分页技巧、索引策略及反模式的快速参考指南。适用于数据库查询优化、数据分析、后端开发,帮助开发者编写高效SQL语句。关键词:SQL模式,CTE示例,窗口函数,SQL连接,索引策略,分页SQL,数据库优化,查询性能。