超算中心
超算中心是AI大模型训练的核心基础设施。 本文将介绍全球主要AI超算中心的规模、架构和特点, 帮助您了解AI算力的基础设施布局。
预计阅读时间:50分钟·难度:中级·更新时间:2024年4月
超算中心概述
AI超算中心是专门为大规模机器学习训练和推理设计的计算基础设施。 与传统科学计算超算不同,AI超算针对深度学习工作负载进行了专门优化。
AI超算 vs 传统超算
AI超算与传统超算对比:
┌──────────────────────────────────────────┐
│ AI超算 传统超算 │
├──────────────────────────────────────────┤
│ 主要负载 深度学习 科学模拟 │
│ 计算类型 FP16/BF16 FP64为主 │
│ 内存需求 超大显存 大内存 │
│ 通信模式 All-Reduce 点对点 │
│ I/O特点 大文件 海量小文件 │
│ 网络要求 高带宽 低延迟 │
│ 存储系统 对象存储 并行文件系统 │
└──────────────────────────────────────────┘
AI超算核心特点:
├── 大规模GPU集群
│ └── 数千到数万张GPU
│
├── 高速互联网络
│ └── InfiniBand或定制网络
│
├── 大容量存储
│ └── PB级高速存储
│
└── 专业软件栈
├── 分布式训练框架
├── 容错机制
└── 监控系统全球主要超算
美国超算中心
美国主要AI超算设施
| 设施名称 | 运营方 | GPU规模 | 主要用途 |
|---|---|---|---|
| Frontier | ORNL | 37,888 AMD MI250X | 科学计算/AI |
| Perlmutter | NERSC | 6,144 A100 | 科学计算/AI |
| Polaris | ALCF | 2,240 A100 | AI研究 |
| Aurora | ANL | 60,000+ Intel GPU | 科学计算/AI |
| Summit | ORNL | 27,648 V100 | 科学计算/AI |
中国超算中心
中国主要AI超算设施
| 设施名称 | 所在地 | 特点 | 主要用途 |
|---|---|---|---|
| 天河系列 | 天津 | 自主研发CPU | 科学计算 |
| 神威系列 | 无锡 | 申威处理器 | 科学计算 |
| 鹏城云脑 | 深圳 | AI专用集群 | AI训练 |
| 智算中心 | 全国多地 | 华为昇腾集群 | AI应用 |
| 商汤AIDC | 上海 | 大规模GPU集群 | CV模型训练 |
技术架构
网络拓扑
AI超算网络架构
典型AI超算网络拓扑:
├── Fat-Tree架构
│ ├── 叶交换机: 连接GPU节点
│ ├── 脊交换机: 连接叶交换机
│ └── 优点: 全带宽无阻塞
│
├── Rail优化设计
│ ├── 多条独立网络平面
│ ├── 同一Rail内全互联
│ └── 优化All-Reduce性能
│
├── 节点内拓扑
│ ├── NVLink互联
│ │ └── 4-8卡全互联
│ └── PCIe Switch
│ └── 连接网卡和存储
│
└── 网络配置示例
├── NVIDIA Quantum-2
│ └── NDR 400Gb/s InfiniBand
├── NVIDIA Spectrum-4
│ └── 400Gb/s Ethernet
└── 拓扑: 3-tier Fat-Tree
└── 支持数千节点
网络性能要求:
├── 带宽: ≥400Gbps per GPU
├── 延迟: ≤1μs (IB网络)
└── 丢包率: ≤10^-12存储系统
AI超算存储架构
AI超算存储层次:
├── 本地存储
│ ├── NVMe SSD
│ │ └── 容量: 2-8TB
│ │ └── 速度: 5-7 GB/s
│ └── 用途: 临时数据、缓存
│
├── 分布式存储
│ ├── 并行文件系统
│ │ ├── Lustre
│ │ ├── GPFS/Spectrum Scale
│ │ └── 性能: 100+ GB/s聚合
│ └── 对象存储
│ ├── S3兼容接口
│ └── 用途: 数据湖、备份
│
├── 高速缓存层
│ ├── Alluxio
│ │ └── 内存/SSD缓存
│ └── 用途: 热数据加速
│
└── 存储容量规划
├── 训练数据: ~5-10TB/模型
├── 检查点: ~100GB/次 × N次
├── 日志/监控: ~1TB/月
└── 总容量: PB级起步AI专用超算
科技公司AI超算集群
主要科技公司AI算力集群:
├── Microsoft/OpenAI
│ ├── 集群规模: ~100,000 H100
│ ├── 架构: Azure NDv5系列
│ ├── 网络: 400Gbps IB per GPU
│ └── 用途: GPT系列训练
│
├── Google
│ ├── 集群规模: ~50,000 TPU v5
│ ├── 架构: TPU Pod
│ ├── 网络: 专用光互联
│ └── 用途: Gemini/PaLM训练
│
├── Meta
│ ├── 集群规模: ~50,000 H100
│ ├── 架构: RSC集群
│ ├── 网络: 400Gbps RoCE
│ └── 用途: LLaMA训练
│
├── Tesla
│ ├── 集群规模: ~10,000 H100
│ ├── 架构: Dojo + GPU混合
│ └── 用途: 自动驾驶模型
│
└── 字节跳动
├── 集群规模: ~30,000 H100
├── 架构: Volcengine集群
└── 用途: 推荐系统/大模型国内AI算力
国内AI算力基础设施
国内AI算力布局:
├── 国家级智算中心
│ ├── 北京智源研究院
│ ├── 上海AI实验室
│ ├── 深圳鹏城实验室
│ └── 杭州之江实验室
│
├── 云厂商算力
│ ├── 阿里云: PAI平台
│ ├── 华为云: ModelArts
│ ├── 百度云: 百度智能云
│ └── 腾讯云: TI平台
│
├── 国产算力方案
│ ├── 华为昇腾
│ │ └── Atlas训练服务器
│ ├── 寒武纪
│ │ └── 思元训练集群
│ └── 海光DCU
│ └── 深算系列
│
└── 挑战与机遇
├── 挑战: 高端芯片受限
├── 挑战: 生态建设
├── 机遇: 国产替代加速
└── 机遇: 应用场景丰富发展趋势
1. 规模持续扩张
百万卡集群将成为下一代AI超算的标准配置
2. 异构算力融合
GPU、NPU、FPGA等多种计算单元协同工作
3. 绿色节能
PUE优化、液冷技术、可再生能源成为标配
4. 算力网络
分布式算力互联,形成国家算力网络
未来AI超算展望
2025-2030年AI超算发展趋势:
├── 硬件层面
│ ├── 单集群百万卡规模
│ ├── 1nm以下先进工艺
│ ├── 光互联技术商用
│ └── 存算一体架构
│
├── 系统层面
│ ├── 算力网络互联
│ ├── 智能运维系统
│ ├── 自愈合能力
│ └── 零停机升级
│
├── 绿色计算
│ ├── PUE ≤ 1.1
│ ├── 液冷普及
│ ├── 100%可再生能源
│ └── 碳中和运营
│
└── 应用支撑
├── 万亿参数模型
├── 实时多模态推理
├── 边缘-云端协同
└── 个人AI助手普及