数据科学 Skill技能列表
YML到DDL技能Skill yml2ddl
yml2ddl技能是一个数据工程工具,用于从Starlake YAML定义自动生成SQL DDL(数据定义语言)语句,支持BigQuery、Snowflake、PostgreSQL等多种目标数据仓库。它通过类型映射简化数据库表结构的创建和管理,提升数据管道开发效率,适用于数据仓库建设和数据治理场景。关键词:SQL DDL, YAML, 数据仓库, 数据工程, 数据库管理, ETL开发, Starlake。
SQL模式速查手册Skill sql-patterns
本技能提供SQL常用模式、公共表表达式(CTE)、窗口函数、JOIN类型、分页技巧、索引策略及反模式的快速参考指南。适用于数据库查询优化、数据分析、后端开发,帮助开发者编写高效SQL语句。关键词:SQL模式,CTE示例,窗口函数,SQL连接,索引策略,分页SQL,数据库优化,查询性能。
数据清洗流程Skill DataCleaningPipeline
构建稳健的数据清洗流程,包括缺失值处理、异常值检测、数据类型标准化、重复项删除、归一化和缩放,以及文本清洗等,以确保数据的完整性和一致性,适合于数据预处理和自动化数据流水线。
高级数据科学家Skill senior-data-scientist
这是一个世界级的高级数据科学家技能集,专注于构建生产级的AI/ML/数据系统。它集成了统计建模、因果推断、A/B测试、特征工程、模型评估与部署等核心能力,并遵循MLOps和DataOps最佳实践。适用于需要设计复杂实验、开发高精度预测模型、进行深度因果分析以及推动企业数据驱动决策的场景。关键词:数据科学,机器学习,统计建模,A/B测试,特征工程,模型部署,MLOps,Python,SQL,大数据分析,人工智能系统。
科学可视化Skill scientific-visualization
科学可视化技能专注于使用Python数据可视化库(如matplotlib、seaborn、plotly)创建高质量、符合出版标准的科学图表。它支持多面板布局、误差棒、显著性标记、色盲友好调色板,并导出为PDF、EPS、TIFF等格式,适用于学术期刊提交和科研绘图。关键词:科学绘图、数据可视化、出版物图表、matplotlib、seaborn、plotly、科研绘图、学术出版、色盲友好、多面板图表。
金融科技工程师Skill fintech-engineer
金融科技工程师专注于设计和实施金融技术系统,包括双分录账簿、高精度财务计算、支付处理架构和监管合规性。关键词包括:支付系统、账簿架构、财务计算、PCI合规性、银行API集成。
FiftyOne嵌入可视化Skill fiftyone-embeddings-visualization
使用深度学习嵌入和降维技术(UMAP/t-SNE)在2D中探索和可视化数据集结构,寻找聚类,识别异常值,按类别或元数据着色样本,理解嵌入空间关系。
趋势分析师Skill trend-analyst
趋势分析师是专注于识别、分析和预测市场、技术及商业环境变化的专家。核心能力包括信号检测、时间序列分析、社会倾听和预测建模。该技能用于发现新兴趋势、评估趋势强度、进行市场时机判断,并将洞察转化为可执行的商业建议。关键词:趋势预测,信号检测,时间序列分析,市场情报,商业趋势,预测建模,社会倾听,早期预警。
CSV处理器Skill csv-processor
CSV处理器是一种高级数据处理工具,专门用于解析、转换和分析CSV文件。它支持自动检测分隔符、处理多种编码、数据清洗、统计分析等功能,适用于数据预处理、ETL流程、数据质量检查和商业智能应用。关键词:CSV处理,数据解析,数据变换,数据分析,数据清洗,ETL,数据工程。
Twitter数据抓取工具Skill twscrape
twscrape是一个专业的Python库,专门用于Twitter/X社交媒体数据抓取和爬虫开发。通过GraphQL API实现高效数据采集,支持多账号轮换管理、异步并行操作、代理配置和会话持久化。适用于社交媒体监控、舆情分析、用户行为研究、趋势挖掘和大规模数据收集场景。关键词:Twitter爬虫、社交媒体数据采集、Python数据抓取、账号轮换、GraphQL API、异步爬虫、数据挖掘、舆情监控。
数据血缘技能Skill lineage
此技能用于生成任务依赖关系图(数据血缘),通过分析SQL变换文件中的依赖关系,可视化数据血缘,支持多种输出格式如DOT、SVG、PNG、JSON,便于数据工程和数据治理。关键词:数据血缘、任务依赖、SQL分析、数据可视化、数据工程。
数据湖平台Skill data-lake-platform
数据湖平台技能用于构建和操作生产级数据湖与数据湖屋,涵盖数据摄取、转换、存储、查询和服务,支持批处理、流式处理和治理功能,关键词:数据湖、数据湖屋、数据工程、大数据、分析平台、数据治理、摄取、转换、存储、查询。