分布式训练(Ray/多节点) DistributedTraining(Ray/Multi-node)(Core)

本技能专注于使用Ray框架在多台机器或多个GPU上进行大规模机器学习模型训练的实践方法。核心内容包括数据并行与模型并行的策略选择、Ray Train/Tune库的应用模式,以及确保训练过程可复现、可追踪、可恢复的关键操作规范。关键词:分布式训练,Ray框架,多节点训练,数据并行,模型并行,MLflow,可复现性,检查点,故障恢复,机器学习扩展。

深度学习 0 次安装 0 次浏览 更新于 3/5/2026

name: 分布式训练(Ray / 多节点)(核心) description: 跨机器/GPU扩展模型训练的实用模式,包含可复现的运行、产物和追踪。

分布式训练(Ray / 多节点)

概述

本技能涵盖何时以及如何将训练扩展到单个进程之外:数据并行与模型并行的权衡、Ray Train/Tune模式,以及最低限度的操作护栏(可复现性、产物存储、故障恢复)。其设计旨在与Cerebra的CerebraML方向(基于MLflow的实验追踪+产物存储)保持一致。

最佳实践

  • 在多节点之前,先从单节点、多GPU开始;首先验证确定性和正确性。
  • 追踪每一次运行:代码版本、数据集哈希、配置、指标和产物(使用MLflow)。
  • 将产物保存在对象存储(S3/MinIO)中,避免将大型输出写入容器层。
  • 优先使用数据并行;仅在内存限制迫使时才添加模型并行。
  • 为故障预留预算:频繁检查点;使训练具有幂等性和可恢复性。

代码示例

# 指引(可组合的规范技能)
05-ai-ml-core/model-training/SKILL.md
77-mlops-data-engineering/mlflow-patterns/SKILL.md

检查清单

  • [ ] 为运行定义单一事实来源配置(YAML/JSON)
  • [ ] 将指标 + 参数 + 产物记录到MLflow
  • [ ] 实现周期性检查点和恢复逻辑
  • [ ] 验证训练/服务特征一致性(特征存储或共享转换)

参考资料

  • 05-ai-ml-core/model-training/SKILL.md
  • 77-mlops-data-engineering/mlflow-patterns/SKILL.md