ML/AI技能转换项目 claude-supercode-skills-main

本项目是一个面向生产环境的机器学习与人工智能技能工具箱,提供11项核心ML/AI技能的完整脚本和参考指南。涵盖AI工程师、LLM架构师、ML工程师、MLOps工程师、数据工程师等角色,包含OpenAI/Claude API集成、RAG系统搭建、模型微调、MLflow实验追踪、ETL管道自动化等关键技术。适用于企业AI应用开发、大模型部署、数据科学项目落地,帮助团队快速构建可维护、可扩展的AI解决方案。关键词:机器学习,人工智能,大模型,RAG,MLOps,数据工程,AI集成,模型部署,生产环境,技能工具箱。

AI应用 0 次安装 0 次浏览 更新于 2/27/2026

ML/AI技能转换项目

项目概述

本项目为11项ML/AI相关技能提供了全面的脚本和参考资料,专为生产环境设计,遵循最佳实践,包含错误处理和配置管理。

项目结构

claude-skills-conversion/
├── ai-engineer-skill/          # AI服务集成,RAG,提示词
├── llm-architect-skill/        # LLM设计,微调,服务部署
├── ml-engineer-skill/           # ML管道,scikit-learn
├── mlops-engineer-skill/        # MLflow,部署,监控
├── machine-learning-engineer-skill/  # Jupyter,特征工程
├── data-engineer-skill/         # ETL管道,数据湖
├── data-scientist-skill/        # 统计分析,可视化
├── data-analyst-skill/          # 数据分析,仪表板
├── prompt-engineer-skill/       # 提示词优化,A/B测试
├── postgres-pro-skill/          # PostgreSQL管理
├── devops-incident-responder-skill/  # 事件响应自动化
└── incident-responder-skill/     # 告警处理和分类

已创建的技能

1. AI工程师

脚本:

  • integrate_openai.py - 带重试逻辑的OpenAI API集成
  • integrate_anthropic.py - Claude API集成
  • setup_rag.py - 带向量数据库的RAG系统
  • manage_prompts.py - 提示词模板管理
  • monitor_ai_service.py - AI服务健康监控
  • optimize_tokens.py - Token使用和成本追踪

参考资料:

  • 快速上手的AI集成指南
  • RAG模式与最佳实践
  • 提示词模板库
  • 成本优化策略

使用场景:

  • LLM API集成
  • RAG实现
  • 提示词管理
  • 成本监控与优化

2. LLM架构师

脚本:

  • benchmark_models.py - 模型比较与选择
  • finetune_model.py - 使用LoRA/PEFT进行微调
  • setup_rag_pipeline.py - 端到端RAG管道
  • serve_model.py - 模型服务基础设施
  • engineer_prompts.py - 提示词优化
  • evaluate_model.py - 模型评估框架

参考资料:

  • 模型选择指南
  • 使用LoRA的微调指南
  • 服务基础设施(vLLM,Docker,K8s)
  • 评估指标和框架

使用场景:

  • 模型基准测试与选择
  • 使用PEFT/LoRA进行微调
  • RAG管道架构
  • 生产模型服务

3. ML工程师

脚本:

  • train_sklearn.py - Scikit-learn训练管道
  • tune_hyperparameters.py - Optuna超参数优化

参考资料:

  • Scikit-learn最佳实践
  • 模型版本控制策略
  • 实验追踪

使用场景:

  • 传统ML模型训练
  • 超参数优化
  • 模型部署准备

4. MLOps工程师

脚本:

  • track_mlflow.py - MLflow实验追踪和模型注册

使用场景:

  • 实验追踪
  • 模型注册管理
  • MLOps管道编排

5. PostgreSQL专家

脚本:

  • backup_pg.py - PostgreSQL备份与恢复

使用场景:

  • 数据库备份策略
  • 自动化备份调度
  • 灾难恢复

6. 数据工程师

脚本:

  • run_etl_pipeline.py - 带调度的ETL自动化

使用场景:

  • 数据管道自动化
  • 转换与验证
  • 定时数据处理

7. 事件响应员

脚本:

  • handle_alerts.py - 事件分类与处理

使用场景:

  • 告警路由与分类
  • 利益相关者通知
  • 事件生命周期管理

安装

前置条件

# Python依赖
pip install scikit-learn pandas numpy
pip install transformers peft datasets
pip install chromadb sentence-transformers
pip install mlflow optuna
pip install openai anthropic
pip install fastapi uvicorn

# 可选:GPU支持
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

环境设置

# 设置API密钥
export OPENAI_API_KEY="your-openai-key"
export ANTHROPIC_API_KEY="your-anthropic-key"

# PostgreSQL
export PGPASSWORD="your-db-password"

快速开始示例

AI工程师 - OpenAI集成

from ai_engineer_skill.scripts.integrate_openai import OpenAIIntegration, OpenAIConfig

config = OpenAIConfig(api_key=os.getenv("OPENAI_API_KEY"))
integration = OpenAIIntegration(config)

messages = [{"role": "user", "content": "你好!"}]
response = integration.chat_completion(messages)
print(response['content'])

LLM架构师 - 模型基准测试

from llm_architect_skill.scripts.benchmark_models import ModelBenchmarker

benchmarker = ModelBenchmarker(models)
benchmarker.benchmark_task("summarization", task_func, test_data)
best = benchmarker.get_best_model_for_task("summarization")

ML工程师 - 训练管道

from ml_engineer_skill.scripts.train_sklearn import MLModelTrainer, ModelConfig

trainer = MLModelTrainer(ModelConfig())
X_train, X_test = trainer.preprocess_features(X_train, X_test)
trainer.train_model(X_train, y_train)
metrics = trainer.evaluate_model(X_test, y_test)

MLOps - MLflow追踪

from mlops_engineer_skill.scripts.track_mlflow import MLflowTracker

tracker = MLflowTracker(experiment_name="my_experiment")
run_id = tracker.start_run("run_1")
tracker.log_params({"lr": 0.01, "epochs": 10})
tracker.log_metrics({"accuracy": 0.95})
tracker.log_model(model, "my_model")
tracker.end_run()

最佳实践

错误处理

所有脚本包含:

  • 带日志记录的try-except块
  • 优雅降级
  • 清晰的错误信息

配置

  • 支持YAML/JSON配置文件
  • 支持环境变量
  • 带覆盖的默认值

日志记录

  • 结构化日志
  • 多日志级别
  • 时间戳和上下文

文档

  • 复杂逻辑的内联注释
  • 函数/类的文档字符串
  • README和参考指南

贡献

每项技能遵循一致的模式:

  1. 为可执行代码创建scripts/目录
  2. 为文档创建references/目录
  3. 使用数据类进行配置
  4. 包含错误处理和日志记录
  5. main()函数中提供示例用法

许可证

可用于生产的教学代码。请根据您的需求进行调整。

后续步骤

以下技能已准备好占位符结构,等待实现:

  • machine-learning-engineer-skill
  • data-scientist-skill
  • data-analyst-skill
  • prompt-engineer-skill
  • devops-incident-responder-skill

请遵循现有模式来实现这些技能。