数据科学 Skill技能列表
流式细胞仪文件处理库Skill flowio
FlowIO是一个轻量级Python库,用于读取、写入和处理流式细胞仪标准(FCS)文件,支持FCS版本2.0-3.1。它能提取事件数据为NumPy数组,读取元数据和通道信息,并转换为CSV或DataFrame格式,适用于流式细胞仪数据预处理和分析。关键词:Python库,FCS文件,流式细胞仪数据,数据预处理,NumPy,数据分析。
数据公共客户端Skill datacommons-client
这个技能提供对Data Commons平台的程序化访问,用于查询和探索公共统计数据、知识图谱和实体标识符。适用于数据科学家、分析师和开发者获取人口统计、经济指标、健康数据、环境统计等全球权威数据,进行数据分析、建模和决策支持。关键词:Data Commons、API、统计数据、知识图谱、Python、数据工程、经济指标、人口统计、健康数据。
Dask分布式计算技能Skill dask
Dask是一个Python库,用于并行和分布式计算,支持处理超过内存限制的大数据工作流。适用于数据科学、机器学习、数据工程任务,如ETL、数据分析和大规模数值计算。关键词:分布式计算,大数据处理,Python,pandas,NumPy,并行处理,数据科学,机器学习,数据工程,ETL开发。
天气查询APISkill weather
这个技能提供全球天气查询API,用于获取当前天气状况和多日天气预报,支持通过城市名称查询,可返回温度、降水概率、风速、湿度等详细气象数据。适用于旅行规划、户外活动、事件安排等场景。关键词:天气API、天气预报、气象数据、城市查询、温度预测、降水概率、风速湿度、SEO优化。
可视化Skill visualization
这是一个数据可视化技能,用于从数据创建交互式图表,如条形图、折线图和饼图,生成前端渲染所需的图表规范,便于数据分析和展示。关键词:数据可视化,交互式图表,条形图,折线图,饼图,前端开发,数据分析。
视觉设计Skill visual-design
这个技能用于生成数据图表和视觉设计,包括海报、信息图、图表、艺术品等。它支持使用Python库如matplotlib、plotly、Pillow、reportlab等进行图像和PDF输出,适用于数据可视化、海报设计、信息图制作等场景。关键词:数据可视化、视觉设计、图表生成、信息图制作、海报设计、Python数据可视化工具。
Python数据管道开发Skill python-pipeline
该技能用于构建模块化的Python数据处理管道,支持工作流协调、内容类型调度、Google Sheets/Drive API集成和AI服务应用。适用于内容处理、批量处理系统和数据工程场景,提高数据处理效率和自动化水平。关键词:Python、数据管道、模块化架构、调度器、Google Sheets集成、AI集成、ETL、数据处理、批量处理、工作流自动化。
自动加载Skill autoload
自动加载技能通过监控传入目录,自动推断数据文件的模式,生成配置文件,并将数据高效加载到数据仓库中,适用于快速数据集成和ETL流程优化,关键词包括:自动加载、模式推断、数据仓库、ETL、数据工程。
列级血缘技能Skill col-lineage
这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。
提取模式技能Skill extract-schema
这个技能用于从JDBC数据库提取数据库表模式(如列名、类型、约束),并生成Starlake YAML配置文件,是数据工程中反向工程数据库到Starlake项目的关键第一步。关键词包括:数据库模式提取、Starlake配置、YAML文件生成、ETL开发、数据治理、反向工程。
数据血缘技能Skill lineage
此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。
数据加载技能Skill load
此技能用于将数据文件从待处理区域高效加载到数据仓库中,实现ETL(提取、转换、加载)过程。它包括数据验证以符合模式、应用写策略(如APPEND、OVERWRITE)、强制执行数据质量期望(如唯一性检查)和隐私转换。支持多种文件格式(JSON、CSV、XML),并通过配置灵活管理数据加载。关键词:数据加载,ETL,数据仓库,数据验证,写策略,数据质量,隐私转换,文件格式,配置管理。