数据工程 Skill技能列表
数据迁移专家Skill data-migration-expert
数据迁移专家技能专注于确保数据库迁移、数据回填和模式变更中的数据完整性。通过验证ID映射、检查交换值、确保回滚安全性和制定验证计划,防止数据损坏。适用于涉及ID映射、列重命名或数据转换的任何迁移。关键词:数据迁移、数据完整性、数据库迁移、验证映射、回滚安全。
知识图谱构建器Skill knowledge-graph-builder
这个技能专注于设计和构建知识图谱,用于表示实体、关系和语义连接,支持Neo4j、RDF和属性图的查询模式,适用于数据集成、智能推荐、欺诈检测、知识管理等场景。关键词:知识图谱,图数据库,Cypher查询,SPARQL,图算法,数据建模,语义网络。
URL抓取器Skill url-fetcher
该技能用于从指定网页URL自动抓取并提取干净的文本内容,去除HTML噪音,适用于数据收集、内容分析、文档处理和网络爬虫等场景,支持参数化设置以提高效率。关键词:网页抓取、文本提取、URL解析、HTML清理、数据获取、网络爬虫、内容分析、自动化工具。
列级血缘技能Skill col-lineage
这个技能用于生成SQL转换任务中的列级血缘,追踪输出列到源列的数据来源,提供精细的数据溯源信息。关键词:数据血缘、SQL分析、数据工程、数据治理、ETL、数据仓库。
SQL模式速查手册Skill sql-patterns
本技能提供SQL常用模式、公共表表达式(CTE)、窗口函数、JOIN类型、分页技巧、索引策略及反模式的快速参考指南。适用于数据库查询优化、数据分析、后端开发,帮助开发者编写高效SQL语句。关键词:SQL模式,CTE示例,窗口函数,SQL连接,索引策略,分页SQL,数据库优化,查询性能。
数据清洗流程Skill DataCleaningPipeline
构建稳健的数据清洗流程,包括缺失值处理、异常值检测、数据类型标准化、重复项删除、归一化和缩放,以及文本清洗等,以确保数据的完整性和一致性,适合于数据预处理和自动化数据流水线。
Twitter数据抓取工具Skill twscrape
twscrape是一个专业的Python库,专门用于Twitter/X社交媒体数据抓取和爬虫开发。通过GraphQL API实现高效数据采集,支持多账号轮换管理、异步并行操作、代理配置和会话持久化。适用于社交媒体监控、舆情分析、用户行为研究、趋势挖掘和大规模数据收集场景。关键词:Twitter爬虫、社交媒体数据采集、Python数据抓取、账号轮换、GraphQL API、异步爬虫、数据挖掘、舆情监控。
数据血缘技能Skill lineage
此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。
数据湖平台Skill data-lake-platform
数据湖平台技能用于构建和操作生产级数据湖与数据湖屋,涵盖数据摄取、转换、存储、查询和服务,支持批处理、流式处理和治理功能,关键词:数据湖、数据湖屋、数据工程、大数据、分析平台、数据治理、摄取、转换、存储、查询。
CSV处理器Skill csv-processor
CSV处理器是一种高级数据处理工具,专门用于解析、转换和分析CSV文件。它支持自动检测分隔符、处理多种编码、数据清洗、统计分析等功能,适用于数据预处理、ETL流程、数据质量检查和商业智能应用。关键词:CSV处理,数据解析,数据变换,数据分析,数据清洗,ETL,数据工程。
抓取文章Skill scrape-posts
此技能用于从Milan Jovanovic的.NET博客优化抓取新文章,通过预筛选列表页面,仅抓取新增或更新的内容,以减少API请求并提升效率。关键词:博客抓取、数据自动化、内容管理、SEO优化、网络爬虫、节省成本。
Navicat数据库管理技能Skill navicat
此技能提供Navicat数据库管理工具的全面指导,帮助用户进行数据库连接、SQL查询执行、数据管理和数据库管理操作,适用于数据库管理员和开发者。关键词:Navicat, 数据库管理, SQL查询, 数据管理, 数据库连接。