数据科学 Skill技能列表

4.5

draw.io流程图绘制技能Skill drawio-flowchart

此技能专注于使用draw.io工具创建和优化流程图,涵盖形状、连接器和图表绘制,适用于流程可视化、工作流设计和过程文档。关键词:流程图、draw.io、数据可视化、工作流、过程图。

4.5

电子书文本提取器Skill ebook-extractor

电子书文本提取器是一个用于从EPUB、MOBI、PDF格式电子书中提取纯文本的工具。它支持常见电子书格式,使用Python脚本实现,无需大型语言模型调用,纯文本提取。适用于数据分析、文本处理、阅读转换等场景。关键词:电子书提取、文本转换、Python工具、EPUB、MOBI、PDF、数据提取。

4.5

数据工程师Skill data-engineer

数据工程技能专注于构建和管理可扩展的数据管道、数据仓库和流处理系统,用于数据提取、转换、加载(ETL)和数据分析基础设施,支持数据质量监控、大数据处理和数据建模。关键词:数据工程、ETL、数据仓库、大数据、数据管道、Apache Airflow、Apache Spark、数据分析。

4.5

手机规格抓取工具Skill phone-specs-scraper

这个技能用于从多个在线手机数据库网站(如GSM Arena、PhoneDB等)抓取和比较手机规格数据,支持Web抓取、数据提取、比较分析和可视化,适用于手机比较工具开发、设备研究、SEO优化和量化金融中的数据工程应用。

4.5

数据血缘技能Skill lineage

此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。

4.5

GreatExpectations数据质量验证器Skill great-expectations-validator

Great Expectations 数据质量验证器是一个专业的数据治理工具,用于自动化数据质量检查、模式验证和期望测试。它支持创建期望套件、生成数据文档、集成机器学习管道,并提供全面的数据质量监控解决方案。关键词:数据质量验证、Great Expectations、期望套件、数据治理、机器学习管道、自动化测试、数据文档、ETL验证、数据工程、数据科学工具。

4.5

邓白氏数据Skill dun-bradstreet-data

邓白氏数据技能是一个商业数据集成工具,用于企业信息查询、邓氏编码匹配、公司层级映射、财务风险评估和行业分类。它通过调用D&B Direct+ API,为CRM系统、销售团队和风控部门提供权威的企业画像数据,以提升客户数据质量、优化线索评分、辅助信用决策和实现精准的区域与行业细分。关键词:邓白氏,DUNS编码,企业数据,信用风险,公司层级,行业分类,CRM集成,数据丰富化。

4.5

报告生成器Skill report-generator

报告生成器技能是一种自动化工具,用于从数据源生成专业的报告,支持多种输出格式如Markdown、HTML和PDF。它包括数据分析和可视化功能,能自动创建图表、表格和执行摘要,适用于数据科学、商业智能和软件开发项目。关键词:自动化报告、数据可视化、商业智能、数据分析工具、报告生成软件。

4.5

时间序列分析师Skill time-series-analyst

这个技能专注于时间序列数据分析,帮助识别模式、趋势、季节性和异常点,并使用统计和机器学习方法进行预测。关键词:时间序列分析、趋势预测、季节性分解、异常检测、ARIMA模型、机器学习预测、量化交易、数据分析、预测建模。

4.5

Excel作业定义转YAML技能Skill xls2ymljob

这是一个用于数据工程的工具,能够将Excel电子表格中描述的任务定义高效转换为Starlake YAML配置文件,支持批量处理和策略集成,适用于ETL开发和数据治理。关键词:Excel, YAML, Starlake, 任务转换, ETL开发, 数据工程, 数据治理, 配置文件。

4.5

Kafka数据加载技能Skill kafkaload

Kafka 数据加载技能是一个用于在 Apache Kafka 主题和文件系统之间高效传输数据的工具。它支持批处理和流式处理模式,提供数据转换功能,适用于数据集成、ETL 流程和大数据处理场景。关键词:Kafka、数据加载、数据卸载、批处理、流式处理、数据转换、ETL。

4.5

分布拟合器Skill distribution-fitter

分布拟合器是一个用于仿真和分析中输入建模的AI技能。它通过统计分布拟合、参数估计和拟合优度检验,帮助用户为离散事件仿真、排队系统分析、需求预测等场景找到最能代表观测数据的概率分布模型。核心功能包括自动化分布拟合、最大似然估计、到达间隔时间分析、经验分布构建和分布比较。关键词:统计分布拟合,输入建模,仿真分析,最大似然估计,拟合优度检验,概率分布,数据分析,量化金融,Python scipy。