数据科学 Skill技能列表

4.5

初创企业指标仪表盘Skill startup-metrics

初创企业指标仪表盘技能是一个专注于为初创公司构建、维护和优化关键绩效指标(KPI)仪表盘的专业工具。它整合了AARRR海盗指标、北极星指标、月度/年度经常性收入(MRR/ARR)跟踪、增长率计算、烧钱率与跑道分析、队列可视化等核心功能,旨在帮助企业进行数据驱动的决策、生成投资者报告并监控业务健康状况。关键词:初创企业指标、KPI仪表盘、AARRR指标、北极星指标、MRR/ARR、数据驱动决策、投资者报告、业务分析、增长跟踪。

4.5

插值逼近Skill interpolation-approximation

插值逼近是一种数值分析方法,用于通过已知数据点构建函数或曲线,实现数据拟合、函数近似和预测建模。核心功能包括多项式插值、样条插值、最小二乘拟合和误差分析,广泛应用于量化金融、数据科学、工程计算和科学研究等领域。关键词:插值方法、逼近算法、数据拟合、数值分析、函数近似、量化金融、预测建模、误差估计。

4.5

模式推断Skill infer-schema

这个技能用于从数据文件(如CSV、JSON、XML、Parquet)中自动推断出Starlake表的模式,并生成对应的YAML配置文件。适用于数据工程中的模式发现、元数据管理和ETL开发流程,帮助数据团队快速建立数据结构。关键词:数据模式推断,ETL开发,YAML配置,文件分析,元数据生成。

4.5

手机规格抓取工具Skill phone-specs-scraper

这个技能用于从多个在线手机数据库网站(如GSM Arena、PhoneDB等)抓取和比较手机规格数据,支持Web抓取、数据提取、比较分析和可视化,适用于手机比较工具开发、设备研究、SEO优化和量化金融中的数据工程应用。

4.5

网页抓取技能Skill using-web-scraping

这个技能使用头less Chrome和DuckDuckGo进行网页抓取和搜索,专注于可靠导航、提取结构化文本、遵守robots.txt和速率限制。用于收集公开网页内容以进行摘要、元数据提取或链接发现。关键词:网页抓取、数据收集、Playwright、DuckDuckGo、自动化、数据提取、SEO优化。

4.5

提取脚本技能Skill extract-script

提取脚本技能能够从 Mustache 或 SSP 模板自动生成 SQL DDL 脚本,适用于不同数据库平台,支持自定义提取、增量更新和审计功能,提升数据库脚本开发效率。关键词:提取脚本、Mustache 模板、SSP 模板、SQL DDL、数据库脚本生成、增量提取、审计模式。

4.5

索引技能Skill index

索引技能是一个命令行工具,用于将数据索引到Elasticsearch中,作为esload命令的别名,适用于数据加载、搜索优化和数据管道集成。关键词:数据索引、Elasticsearch、数据工程、ETL、搜索、数据加载。

4.5

PDF处理技能Skill pdf

PDF处理技能用于编程方式处理PDF文档,包括文本和表格提取、PDF创建、合并分割、表单处理以及自动化操作。关键词包括:PDF处理、文本提取、表格提取、Python库、自动化、数据提取、文档管理。

4.5

Plotly可视化库Skill plotly

Plotly 是一个功能强大的 Python 库,专门用于创建交互式和高质量的图表,支持散点图、线图、条形图、热力图、K线图等40多种图表类型,广泛应用于数据分析、科学可视化和金融图表创建。关键词:交互式可视化、Python 绘图库、数据可视化、图表工具、数据分析、科学图表、金融图表。

4.5

PDF处理Skill pdf

PDF处理技能用于通过编程方式提取PDF文档中的文本和表格,创建、合并、分割PDF文件,以及填充表单。适用于文档自动化处理、数据提取和分析,常用于数据工程和软件开发场景。在股票量化交易中,此技能可辅助处理财务报告和交易文档,提取关键数据进行分析。关键词:PDF处理,文档提取,Python库,数据工程,自动化处理,量化交易,数据提取。

4.5

Excel转YML转换器Skill xls2yml

Excel转YML转换器是一款将Excel表格中的域和表架构转换为Starlake YAML配置文件的工具。适用于数据工程团队,简化数据模型管理流程,支持批量文件转换、自定义输出目录、IAM策略标签集成等功能,提高数据治理效率。关键词:Excel转YML、Starlake、数据工程、配置管理、ETL开发、数据治理。

4.5

阶段技能Skill stage

阶段技能用于将数据文件从登陆区移动到待处理区,执行解压缩和确认文件处理,是数据摄取管道的第一步,确保数据准备就绪供后续加载。关键词:数据阶段化、ETL、数据工程、ACK文件处理、数据管道、数据摄取、文件管理。