数据工程 Skill技能列表
SQL模式速查手册Skill sql-patterns
本技能提供SQL常用模式、公共表表达式(CTE)、窗口函数、JOIN类型、分页技巧、索引策略及反模式的快速参考指南。适用于数据库查询优化、数据分析、后端开发,帮助开发者编写高效SQL语句。关键词:SQL模式,CTE示例,窗口函数,SQL连接,索引策略,分页SQL,数据库优化,查询性能。
URL抓取器Skill url-fetcher
该技能用于从指定网页URL自动抓取并提取干净的文本内容,去除HTML噪音,适用于数据收集、内容分析、文档处理和网络爬虫等场景,支持参数化设置以提高效率。关键词:网页抓取、文本提取、URL解析、HTML清理、数据获取、网络爬虫、内容分析、自动化工具。
列级血缘技能Skill col-lineage
这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。
数据架构Skill architecting-data
数据架构技能提供设计现代云原生数据平台的战略指导,涵盖存储范式选择、数据建模方法、数据网格实施、开放表格式应用等。关键词:数据架构、数据平台、存储范式、数据建模、数据网格、数据治理、现代数据堆栈、奖章架构、Apache Iceberg、dbt、数据工程。
PostgreSQL数据库专家Skill postgres-pro
PostgreSQL数据库专家技能提供全面的PostgreSQL数据库管理、性能优化、高可用性设置、备份恢复和高级功能实现的专业知识。专注于PostgreSQL性能调优、JSONB索引优化、流复制配置、分区策略和高级扩展应用,帮助企业构建高性能、高可用的PostgreSQL数据库系统。关键词:PostgreSQL数据库管理、性能优化、高可用性、备份恢复、JSONB索引、流复制、分区策略、PostGIS、pgvector、数据库调优。
生物信息学分析师Skill bio-informatics-analyst
该技能用于协调和管理生物信息学数据处理流程,包括数据转换、分析管道设置、质量控制以及报告生成,确保工作流程的可重复性和高效性,特别适用于单细胞分析等生物医学研究领域。关键词:生物信息学、数据分析、数据处理、工作流程自动化、可重复性、Nextflow、Python、单细胞分析、质量控制、生物医药。
Firecrawl抓取技能Skill firecrawl-scrape
Firecrawl抓取技能是一个通过Firecrawl MCP工具抓取网页并提取内容的技能,支持从URL或搜索查询获取结构化数据,适用于数据采集和网络内容分析,关键词包括:网页抓取、数据提取、Firecrawl、MCP、爬虫、内容抓取、SEO搜索。
Twitter数据抓取工具Skill twscrape
twscrape是一个专业的Python库,专门用于Twitter/X社交媒体数据抓取和爬虫开发。通过GraphQL API实现高效数据采集,支持多账号轮换管理、异步并行操作、代理配置和会话持久化。适用于社交媒体监控、舆情分析、用户行为研究、趋势挖掘和大规模数据收集场景。关键词:Twitter爬虫、社交媒体数据采集、Python数据抓取、账号轮换、GraphQL API、异步爬虫、数据挖掘、舆情监控。
CSV处理器Skill csv-processor
CSV处理器是一种高级数据处理工具,专门用于解析、转换和分析CSV文件。它支持自动检测分隔符、处理多种编码、数据清洗、统计分析等功能,适用于数据预处理、ETL流程、数据质量检查和商业智能应用。关键词:CSV处理,数据解析,数据变换,数据分析,数据清洗,ETL,数据工程。
YAML转Excel转换器Skill yml2xls
该技能用于将 Starlake YAML 数据定义转换为 Excel 电子表格,便于与非技术用户共享数据模型,支持 YAML 和 Excel 之间的双向转换,适用于数据工程、数据治理和数据处理工作流。关键词:YAML 转 Excel, Starlake 数据转换, 数据模型共享, 数据工程工具, ETL 开发, 数据可视化。
数据血缘技能Skill lineage
此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。
Twitter/X数据抓取工具Skill twscrape
twscrape 是一个强大的 Python 库,专门用于高效、大规模地抓取 Twitter(现 X)平台的公开数据。它通过 GraphQL API 和账号轮换机制,支持异步并行抓取推文、用户资料、关注者列表和趋势话题等,是构建社交媒体分析、舆情监控和市场研究工具的利器。关键词:Twitter 数据抓取,X 平台爬虫,社交媒体分析,Python 异步爬虫,账号轮换,GraphQL API,数据采集。