分布式训练（Ray/多节点）Skill DistributedTraining(Ray/Multi-node)(Core)

本技能专注于使用Ray框架在多台机器或多个GPU上进行大规模机器学习模型训练的实践方法。核心内容包括数据并行与模型并行的策略选择、Ray Train/Tune库的应用模式，以及确保训练过程可复现、可追踪、可恢复的关键操作规范。关键词：分布式训练，Ray框架，多节点训练，数据并行，模型并行，MLflow，可复现性，检查点，故障恢复，机器学习扩展。

深度学习 2 次安装 38 次浏览更新于 3/5/2026

name: 分布式训练（Ray / 多节点）(核心) description: 跨机器/GPU扩展模型训练的实用模式，包含可复现的运行、产物和追踪。

分布式训练（Ray / 多节点）

概述

本技能涵盖何时以及如何将训练扩展到单个进程之外：数据并行与模型并行的权衡、Ray Train/Tune模式，以及最低限度的操作护栏（可复现性、产物存储、故障恢复）。其设计旨在与Cerebra的CerebraML方向（基于MLflow的实验追踪+产物存储）保持一致。

最佳实践

在多节点之前，先从单节点、多GPU开始；首先验证确定性和正确性。
追踪每一次运行：代码版本、数据集哈希、配置、指标和产物（使用MLflow）。
将产物保存在对象存储（S3/MinIO）中，避免将大型输出写入容器层。
优先使用数据并行；仅在内存限制迫使时才添加模型并行。
为故障预留预算：频繁检查点；使训练具有幂等性和可恢复性。

代码示例

# 指引（可组合的规范技能）
05-ai-ml-core/model-training/SKILL.md
77-mlops-data-engineering/mlflow-patterns/SKILL.md

检查清单

[ ] 为运行定义单一事实来源配置（YAML/JSON）
[ ] 将指标 + 参数 + 产物记录到MLflow
[ ] 实现周期性检查点和恢复逻辑
[ ] 验证训练/服务特征一致性（特征存储或共享转换）

参考资料

05-ai-ml-core/model-training/SKILL.md
77-mlops-data-engineering/mlflow-patterns/SKILL.md