name: 分布式训练(Ray / 多节点)(核心) description: 跨机器/GPU扩展模型训练的实用模式,包含可复现的运行、产物和追踪。
分布式训练(Ray / 多节点)
概述
本技能涵盖何时以及如何将训练扩展到单个进程之外:数据并行与模型并行的权衡、Ray Train/Tune模式,以及最低限度的操作护栏(可复现性、产物存储、故障恢复)。其设计旨在与Cerebra的CerebraML方向(基于MLflow的实验追踪+产物存储)保持一致。
最佳实践
- 在多节点之前,先从单节点、多GPU开始;首先验证确定性和正确性。
- 追踪每一次运行:代码版本、数据集哈希、配置、指标和产物(使用MLflow)。
- 将产物保存在对象存储(S3/MinIO)中,避免将大型输出写入容器层。
- 优先使用数据并行;仅在内存限制迫使时才添加模型并行。
- 为故障预留预算:频繁检查点;使训练具有幂等性和可恢复性。
代码示例
# 指引(可组合的规范技能)
05-ai-ml-core/model-training/SKILL.md
77-mlops-data-engineering/mlflow-patterns/SKILL.md
检查清单
- [ ] 为运行定义单一事实来源配置(YAML/JSON)
- [ ] 将指标 + 参数 + 产物记录到MLflow
- [ ] 实现周期性检查点和恢复逻辑
- [ ] 验证训练/服务特征一致性(特征存储或共享转换)
参考资料
05-ai-ml-core/model-training/SKILL.md77-mlops-data-engineering/mlflow-patterns/SKILL.md