torch-distributed-training

ML python basic distributed-training

发布时间 : 2025-08-19 11:22

字数:407 阅读 :

需求

很好奇如何实现多机单卡实现分布式训练

刚好在Azure上申请了两台Tesla T4 VM来做个分布式训练的实验

Akabane71/torch_ds_train: this is a learn project for leaning ds training

tensorboard --logdir=./runs --reload_interval=5

参数说明:

–logdir=./runs：你训练脚本中设置的日志保存目录（可以修改成其他路径）
–reload_interval=5：每 5 秒自动刷新一次日志文件

uv pip sync requirements.txt

启动分布式训练脚本【传统】
分布式训练的模式：

# master 节点
$env:MASTER_ADDR="10.0.0.6"
$env:MASTER_PORT="29505"
$env:RANK="1"
$env:WORLD_SIZE="2"
python train_dis.py

# worker 节点
$env:MASTER_ADDR="10.0.0.5"
$env:MASTER_PORT="29500"
$env:RANK="1"
$env:WORLD_SIZE="2"
python train_dis.py

使用场景为多台机器，每台单张gpu

NCCL：
由 NVIDIA 开发，专为 GPU 间高效通信设计。
只支持 Linux 和 NVIDIA GPU。
性能高，适合大规模多卡/多机训练。
支持 AllReduce、Broadcast 等操作。

GLOO：
由 Facebook 开发，支持 CPU 和部分 GPU。
支持 Linux、Windows、macOS。
性能较 NCCL 低，适合 CPU 或小规模训练。
更通用，兼容性好。

batchsize没微调，但速度很顶