数据科学 Skill技能列表
CSV处理器Skill csv-processor
CSV处理器是一种高级数据处理工具,专门用于解析、转换和分析CSV文件。它支持自动检测分隔符、处理多种编码、数据清洗、统计分析等功能,适用于数据预处理、ETL流程、数据质量检查和商业智能应用。关键词:CSV处理,数据解析,数据变换,数据分析,数据清洗,ETL,数据工程。
Twitter/X数据抓取工具Skill twscrape
twscrape 是一个强大的 Python 库,专门用于高效、大规模地抓取 Twitter(现 X)平台的公开数据。它通过 GraphQL API 和账号轮换机制,支持异步并行抓取推文、用户资料、关注者列表和趋势话题等,是构建社交媒体分析、舆情监控和市场研究工具的利器。关键词:Twitter 数据抓取,X 平台爬虫,社交媒体分析,Python 异步爬虫,账号轮换,GraphQL API,数据采集。
PostgreSQL数据库专家Skill postgres-pro
PostgreSQL数据库专家技能提供全面的PostgreSQL数据库管理、性能优化、高可用性设置、备份恢复和高级功能实现的专业知识。专注于PostgreSQL性能调优、JSONB索引优化、流复制配置、分区策略和高级扩展应用,帮助企业构建高性能、高可用的PostgreSQL数据库系统。关键词:PostgreSQL数据库管理、性能优化、高可用性、备份恢复、JSONB索引、流复制、分区策略、PostGIS、pgvector、数据库调优。
Polars数据处理库Skill polars
Polars是一个基于Apache Arrow的快速内存DataFrame库,支持惰性评估和并行执行,适用于处理1-100GB的数据集,用于ETL管道、数据清洗、数据分析、pandas迁移和数据管道优化,提高数据处理效率和性能。关键词:数据处理,DataFrame,Apache Arrow,ETL,数据工程,数据科学,并行执行,内存计算。
数据血缘技能Skill lineage
此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。
EVMDEX交易Skill trading-evm
EVM DEX交易技能允许用户在以太坊、Arbitrum、Optimism、Base和Polygon等EVM兼容链上使用Uniswap V3和1inch聚合器进行代币交易,支持MEV保护和滑点容忍度设置,适用于量化金融和加密货币交易领域。
统计建模库Skill statsmodels
Statsmodels是一个用于统计建模和计量经济学的Python库,支持线性回归、广义线性模型、时间序列分析等多种统计方法,提供详细的诊断、残差分析和推理功能,适用于数据科学、预测建模和数据分析。关键词:统计建模,Python,数据分析,预测模型,计量经济学。
新闻聚合Skill news-aggregation
新闻聚合技能用于从多个新闻网站和聚合器通过RSS订阅自动收集、去重和总结最新新闻,生成简洁主题摘要,并列出所有来源链接。适用于数据分析、信息聚合和自动化报告。关键词:新闻聚合、RSS、多源数据、数据分析、Python、Node.js、ETL、自动化。
创业指标框架Skill startup-metrics-framework
这个技能用于帮助用户理解和应用初创企业的关键绩效指标,包括MRR、CAC、LTV、单位经济、烧钱倍数、规则40、市场平台指标等,提供计算、跟踪和优化指南,适用于SaaS、市场平台、B2B等不同业务模型和从种子轮到A轮融资等阶段。关键词:创业指标、SaaS指标、单位经济、LTV:CAC、规则40、商业智能、数据追踪、初创公司、融资指标。
数据湖平台Skill data-lake-platform
数据湖平台技能用于构建和操作生产级数据湖与数据湖屋,涵盖数据摄取、转换、存储、查询和服务,支持批处理、流式处理和治理功能,关键词:数据湖、数据湖屋、数据工程、大数据、分析平台、数据治理、摄取、转换、存储、查询。
高级数据工程师Skill senior-data-engineer
高级数据工程师技能专注于构建和管理可扩展的数据基础设施、ETL/ELT系统、数据管道和数据质量,支持生产级AI/ML和数据系统。关键技术包括Python、SQL、Spark、Airflow、dbt、Kafka等,适用于数据架构设计、数据工作流优化、数据治理等场景,助力企业实现数据驱动的决策和创新。关键词:数据工程、ETL、数据管道、数据基础设施、Spark、Airflow、Python、SQL、DataOps。
Twitter数据抓取工具Skill twscrape
twscrape是一个专业的Python库,专门用于Twitter/X社交媒体数据抓取和爬虫开发。通过GraphQL API实现高效数据采集,支持多账号轮换管理、异步并行操作、代理配置和会话持久化。适用于社交媒体监控、舆情分析、用户行为研究、趋势挖掘和大规模数据收集场景。关键词:Twitter爬虫、社交媒体数据采集、Python数据抓取、账号轮换、GraphQL API、异步爬虫、数据挖掘、舆情监控。