分布式训练

分布式训练是训练百亿、千亿参数模型的基础技术。

共 3 篇文章·阅读时间：约35分钟

01数据并行

数据并行是最常用的分布式训练方法，通过复制模型并行处理不同数据。

工作流程

DistributedDataParallel
通信效率高，是PyTorch官方实现

FullyShardedDataParallel
同时分片模型参数，支持超大模型

当单个GPU放不下模型时，需要将模型拆分到多个GPU。

核心思想

将模型的不同层放到不同GPU上，每个GPU只负责部分层的计算。需要时进行跨GPU通信。

张量并行：将单层的权重矩阵拆分到多个GPU
Megatron-LM是典型实现

流水线并行：将不同层放到不同GPU
需要mini-batch内部再切分micro-batch

TP + PP + DP 组合
训练万亿参数模型的标配

ZeRO通过分片优化器状态、梯度和参数，大幅减少显存占用。

微软出品，支持ZeRO
提供Training Optimization库

中小模型：ZeRO-1/2 足够
超大模型：ZeRO-3 或 ZeRO-3 + Offload

实战技巧

模型训练