集群架构

了解AI算力集群的架构设计，掌握单机多卡、多机多卡和网络拓扑的关键技术。

共 4 篇文章·预计阅读时间：55分钟

01概述

AI算力集群是支撑大模型训练的基础设施。根据规模和需求的不同，集群架构可分为单机多卡和多机多卡两大类。选择合适的架构需要综合考虑模型规模、训练时间、成本预算等因素。

架构演进

随着模型规模的快速增长，AI训练架构经历了从单GPU到单机多卡，再到多机多卡的演进过程：

2012-2015：单GPU训练为主，模型参数量在百万级
2016-2018：单机多卡成为主流，模型参数量达到亿级
2019-2021：多机多卡开始普及，模型参数量突破百亿
2022至今：大规模集群成为标配，千亿参数模型成为常态

架构选择原则

架构选择需要在性能、成本、复杂度之间权衡。小规模模型优先单机多卡，大规模模型必须多机多卡。同时要考虑网络带宽、存储容量、扩展性等因素。

02单机多卡

单机多卡是最基础的分布式训练架构，通过在一台服务器内安装多个GPU实现并行训练。这种方式部署简单、通信效率高，是中小规模模型训练的首选方案。

工作原理

单机多卡架构的核心是通过NVLink或PCIe总线连接多个GPU，实现数据并行训练：

数据并行：将训练数据分割到多个GPU，每个GPU独立计算梯度
梯度同步：通过AllReduce操作同步各GPU的梯度
参数更新：使用同步后的梯度更新模型参数

互联方式	带宽	延迟	特点
NVLink 4.0	900 GB/s	极低	H100专用，性能最优
NVLink 3.0	600 GB/s	低	A100专用，性能优秀
NVLink 2.0	300 GB/s	中	V100专用，性能良好
PCIe 4.0 x16	64 GB/s	较高	通用性好，带宽受限
PCIe 5.0 x16	128 GB/s	中等	新一代，带宽提升

优势与限制

优势

部署简单：无需配置复杂的网络环境
通信效率高：NVLink带宽远超网络互联
成本低：单机成本低于多机集群
维护简单：故障排查和运维成本低

限制

GPU数量受限：通常最多8卡
显存总量有限：单机显存上限约640GB(8×80GB)
扩展性有限：无法通过增加机器扩展
单点故障：机器故障导致训练中断

适用场景

模型微调：7B-70B模型的LoRA、QLoRA微调
中小规模训练：参数量在百亿以下的模型训练
研究和实验：学术研究、算法验证
推理服务：模型推理和部署

03多机多卡

多机多卡架构通过高速网络连接多台GPU服务器，实现大规模分布式训练。这是千亿参数大模型训练的基础架构，也是现代AI算力集群的核心形态。

工作原理

多机多卡架构在单机多卡的基础上，增加了跨机器的协调和通信：

节点内通信：通过NVLink实现同一节点内GPU间高速通信
节点间通信：通过InfiniBand或RoCE实现跨节点通信
分布式协调：通过参数服务器或AllReduce实现梯度同步
容错机制：通过checkpoint和故障恢复保证训练连续性

网络技术	带宽	延迟	适用场景
InfiniBand NDR	400 Gb/s	~0.5μs	大规模训练
InfiniBand HDR	200 Gb/s	~1μs	中大规模训练
RoCE v2	100-200 Gb/s	~2μs	成本敏感场景
以太网(100G)	100 Gb/s	~5μs	小规模集群

技术挑战

网络通信开销

跨节点通信延迟显著高于节点内通信，需要优化通信模式减少网络传输

负载均衡

不同节点的计算能力、网络条件可能存在差异，需要动态负载均衡

故障恢复

大规模集群故障概率增加，需要完善的容错和恢复机制

存储瓶颈

大规模训练数据读写可能成为瓶颈，需要分布式存储优化

解决方案

通信优化：梯度压缩、通信与计算重叠、拓扑感知调度
并行策略：3D并行（数据并行+流水线并行+张量并行）
容错机制：定期checkpoint、弹性训练、快速故障恢复
存储优化：分布式文件系统、数据预取、缓存策略

04网络拓扑

网络拓扑决定了多机通信效率，是影响分布式训练性能的关键因素。选择合适的拓扑需要权衡性能、成本、可扩展性。

拓扑类型

拓扑类型	特点	优势	适用规模
Fat-Tree	多层交换机结构	无阻塞、易扩展	中小规模
Dragonfly	组内全连+组间连接	延迟低、成本低	超大规模
Torus	环形连接	成本低	小规模
Hypercube	超立方体	理论优雅	研究场景

选择建议

小规模集群（<100节点）：Fat-Tree，部署简单，性能稳定
中规模集群（100-1000节点）：Fat-Tree或Dragonfly，权衡成本和性能
大规模集群（>1000节点）：Dragonfly，扩展性好，成本优

05架构对比

对比维度	单机多卡	多机多卡
GPU数量	1-8卡	数十到数千卡
通信方式	NVLink/PCIe	InfiniBand/RoCE
部署复杂度	低	高
运维成本	低	高
扩展性	有限	好
适用模型规模	百亿参数以下	千亿参数以上

选型建议

根据模型规模和预算选择：7B以下模型单卡即可，7B-70B模型单机多卡，70B以上模型多机多卡。实际选择时还需考虑训练时间要求、预算限制等因素。

← 平台对比

高速互联 →