ML/AI技能转换项目
项目概述
本项目为11项ML/AI相关技能提供了全面的脚本和参考资料,专为生产环境设计,遵循最佳实践,包含错误处理和配置管理。
项目结构
claude-skills-conversion/
├── ai-engineer-skill/ # AI服务集成,RAG,提示词
├── llm-architect-skill/ # LLM设计,微调,服务部署
├── ml-engineer-skill/ # ML管道,scikit-learn
├── mlops-engineer-skill/ # MLflow,部署,监控
├── machine-learning-engineer-skill/ # Jupyter,特征工程
├── data-engineer-skill/ # ETL管道,数据湖
├── data-scientist-skill/ # 统计分析,可视化
├── data-analyst-skill/ # 数据分析,仪表板
├── prompt-engineer-skill/ # 提示词优化,A/B测试
├── postgres-pro-skill/ # PostgreSQL管理
├── devops-incident-responder-skill/ # 事件响应自动化
└── incident-responder-skill/ # 告警处理和分类
已创建的技能
1. AI工程师
脚本:
integrate_openai.py- 带重试逻辑的OpenAI API集成integrate_anthropic.py- Claude API集成setup_rag.py- 带向量数据库的RAG系统manage_prompts.py- 提示词模板管理monitor_ai_service.py- AI服务健康监控optimize_tokens.py- Token使用和成本追踪
参考资料:
- 快速上手的AI集成指南
- RAG模式与最佳实践
- 提示词模板库
- 成本优化策略
使用场景:
- LLM API集成
- RAG实现
- 提示词管理
- 成本监控与优化
2. LLM架构师
脚本:
benchmark_models.py- 模型比较与选择finetune_model.py- 使用LoRA/PEFT进行微调setup_rag_pipeline.py- 端到端RAG管道serve_model.py- 模型服务基础设施engineer_prompts.py- 提示词优化evaluate_model.py- 模型评估框架
参考资料:
- 模型选择指南
- 使用LoRA的微调指南
- 服务基础设施(vLLM,Docker,K8s)
- 评估指标和框架
使用场景:
- 模型基准测试与选择
- 使用PEFT/LoRA进行微调
- RAG管道架构
- 生产模型服务
3. ML工程师
脚本:
train_sklearn.py- Scikit-learn训练管道tune_hyperparameters.py- Optuna超参数优化
参考资料:
- Scikit-learn最佳实践
- 模型版本控制策略
- 实验追踪
使用场景:
- 传统ML模型训练
- 超参数优化
- 模型部署准备
4. MLOps工程师
脚本:
track_mlflow.py- MLflow实验追踪和模型注册
使用场景:
- 实验追踪
- 模型注册管理
- MLOps管道编排
5. PostgreSQL专家
脚本:
backup_pg.py- PostgreSQL备份与恢复
使用场景:
- 数据库备份策略
- 自动化备份调度
- 灾难恢复
6. 数据工程师
脚本:
run_etl_pipeline.py- 带调度的ETL自动化
使用场景:
- 数据管道自动化
- 转换与验证
- 定时数据处理
7. 事件响应员
脚本:
handle_alerts.py- 事件分类与处理
使用场景:
- 告警路由与分类
- 利益相关者通知
- 事件生命周期管理
安装
前置条件
# Python依赖
pip install scikit-learn pandas numpy
pip install transformers peft datasets
pip install chromadb sentence-transformers
pip install mlflow optuna
pip install openai anthropic
pip install fastapi uvicorn
# 可选:GPU支持
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
环境设置
# 设置API密钥
export OPENAI_API_KEY="your-openai-key"
export ANTHROPIC_API_KEY="your-anthropic-key"
# PostgreSQL
export PGPASSWORD="your-db-password"
快速开始示例
AI工程师 - OpenAI集成
from ai_engineer_skill.scripts.integrate_openai import OpenAIIntegration, OpenAIConfig
config = OpenAIConfig(api_key=os.getenv("OPENAI_API_KEY"))
integration = OpenAIIntegration(config)
messages = [{"role": "user", "content": "你好!"}]
response = integration.chat_completion(messages)
print(response['content'])
LLM架构师 - 模型基准测试
from llm_architect_skill.scripts.benchmark_models import ModelBenchmarker
benchmarker = ModelBenchmarker(models)
benchmarker.benchmark_task("summarization", task_func, test_data)
best = benchmarker.get_best_model_for_task("summarization")
ML工程师 - 训练管道
from ml_engineer_skill.scripts.train_sklearn import MLModelTrainer, ModelConfig
trainer = MLModelTrainer(ModelConfig())
X_train, X_test = trainer.preprocess_features(X_train, X_test)
trainer.train_model(X_train, y_train)
metrics = trainer.evaluate_model(X_test, y_test)
MLOps - MLflow追踪
from mlops_engineer_skill.scripts.track_mlflow import MLflowTracker
tracker = MLflowTracker(experiment_name="my_experiment")
run_id = tracker.start_run("run_1")
tracker.log_params({"lr": 0.01, "epochs": 10})
tracker.log_metrics({"accuracy": 0.95})
tracker.log_model(model, "my_model")
tracker.end_run()
最佳实践
错误处理
所有脚本包含:
- 带日志记录的try-except块
- 优雅降级
- 清晰的错误信息
配置
- 支持YAML/JSON配置文件
- 支持环境变量
- 带覆盖的默认值
日志记录
- 结构化日志
- 多日志级别
- 时间戳和上下文
文档
- 复杂逻辑的内联注释
- 函数/类的文档字符串
- README和参考指南
贡献
每项技能遵循一致的模式:
- 为可执行代码创建
scripts/目录 - 为文档创建
references/目录 - 使用数据类进行配置
- 包含错误处理和日志记录
- 在
main()函数中提供示例用法
许可证
可用于生产的教学代码。请根据您的需求进行调整。
后续步骤
以下技能已准备好占位符结构,等待实现:
- machine-learning-engineer-skill
- data-scientist-skill
- data-analyst-skill
- prompt-engineer-skill
- devops-incident-responder-skill
请遵循现有模式来实现这些技能。