GPU型号详解
选择合适的GPU是AI项目成功的关键因素之一。 本文将详细介绍主流AI训练和推理GPU的规格、特点和应用场景。
预计阅读时间:50分钟·难度:中级·更新时间:2024年4月
GPU型号概述
AI训练和推理对GPU有不同的需求。选择GPU时需要考虑计算能力、显存容量、 内存带宽、互联能力、功耗和成本等多个维度。
GPU选型关键因素
GPU选型考虑因素:
├── 计算能力
│ ├── FLOPs (峰值算力)
│ ├── Tensor Core支持
│ └── 精度支持 (FP16/BF16/FP8)
│
├── 显存规格
│ ├── 容量 (决定最大模型大小)
│ ├── 带宽 (影响吞吐量)
│ └── 类型 (HBM/GDDR)
│
├── 互联能力
│ ├── NVLink带宽
│ ├── PCIe版本
│ └── 多卡拓扑
│
├── 软件生态
│ ├── CUDA版本支持
│ ├── cuDNN优化
│ └── 框架兼容性
│
└── 成本因素
├── 硬件成本
├── 运营成本 (功耗)
└── 云服务价格数据中心GPU
A100详解
NVIDIA A100规格
NVIDIA A100 (Ampere架构): ┌──────────────────────────────────────────┐ │ 核心规格: │ │ ├── 架构: Ampere (GA100) │ │ ├── 工艺: 7nm (TSMC) │ │ ├── 晶体管: 54.2B │ │ ├── 芯片面积: 826mm² │ │ └── TDP: 400W │ ├──────────────────────────────────────────┤ │ 计算性能: │ │ ├── FP64: 19.5 TFLOPs │ │ ├── FP32: 19.5 TFLOPs │ │ ├── TF32 Tensor: 156 TFLOPs │ │ ├── FP16 Tensor: 312 TFLOPs │ │ ├── BF16 Tensor: 312 TFLOPs │ │ └── INT8 Tensor: 624 TOPS │ ├──────────────────────────────────────────┤ │ 显存规格: │ │ ├── 容量: 40GB / 80GB (HBM2e) │ │ ├── 带宽: 1.6TB/s / 2.0TB/s │ │ └── ECC: 支持 │ ├──────────────────────────────────────────┤ │ 互联: │ │ ├── NVLink 3.0: 600GB/s │ │ ├── PCIe 4.0 x16: 64GB/s │ │ └── NVSwitch支持 │ └──────────────────────────────────────────┘
A100主要特性
A100核心特性:
├── 第三代Tensor Core
│ ├── 支持TF32格式
│ ├── 深度学习加速20x
│ └── 稀疏计算支持
│
├── Multi-Instance GPU (MIG)
│ ├── 7个独立实例
│ ├── 硬件级隔离
│ └── 适合推理场景
│
├── 结构化稀疏
│ ├── 2:4稀疏模式
│ ├── 理论2x加速
│ └── 推理性能提升
│
└── 第三代NVLink
├── 600GB/s带宽
├── 全互联拓扑
└── 8卡互联支持H100详解
NVIDIA H100规格
NVIDIA H100 (Hopper架构): ┌──────────────────────────────────────────┐ │ 核心规格: │ │ ├── 架构: Hopper (GH100) │ │ ├── 工艺: 4nm (TSMC) │ │ ├── 晶体管: 80B │ │ ├── 芯片面积: 814mm² │ │ └── TDP: 700W │ ├──────────────────────────────────────────┤ │ 计算性能: │ │ ├── FP64: 34 TFLOPs │ │ ├── FP32: 67 TFLOPs │ │ ├── TF32 Tensor: 989 TFLOPs │ │ ├── FP16 Tensor: 1979 TFLOPs │ │ ├── BF16 Tensor: 1979 TFLOPs │ │ ├── FP8 Tensor: 3958 TFLOPs │ │ └── INT8 Tensor: 3958 TOPS │ ├──────────────────────────────────────────┤ │ 显存规格: │ │ ├── 容量: 80GB / 94GB (HBM3) │ │ ├── 带宽: 3.35TB/s │ │ └── ECC: 支持 │ ├──────────────────────────────────────────┤ │ 互联: │ │ ├── NVLink 4.0: 900GB/s │ │ ├── PCIe 5.0 x16: 128GB/s │ │ └── NVSwitch支持 │ └──────────────────────────────────────────┘
H100新增特性
H100新增核心特性:
├── 第四代Tensor Core
│ ├── FP8格式支持
│ ├── Transformer Engine
│ └── 相比A100算力翻倍
│
├── Transformer Engine
│ ├── 自动精度选择
│ ├── FP8/FP16混合
│ └── 大模型训练加速
│
├── 新的DPX指令
│ ├── 动态规划加速
│ ├── 基因组学加速7x
│ └── 路径优化加速
│
└── 机密计算
├── 虚拟机加密
├── 安全启动
└── 数据保护
A100 vs H100 大模型训练性能:
├── GPT-3 175B训练: 3x加速
├── LLaMA-2 70B训练: 2.5x加速
└── 推理吞吐: 2-4x提升消费级GPU
RTX 4090详解
RTX 4090规格
NVIDIA RTX 4090 (Ada Lovelace架构): ┌──────────────────────────────────────────┐ │ 核心规格: │ │ ├── 架构: Ada Lovelace (AD102) │ │ ├── 工艺: 4nm (TSMC) │ │ ├── CUDA核心: 16384 │ │ ├── Tensor Core: 512 (第四代) │ │ └── TDP: 450W │ ├──────────────────────────────────────────┤ │ 计算性能: │ │ ├── FP32: 82.6 TFLOPs │ │ ├── FP16 Tensor: 330 TFLOPs │ │ └── INT8: 660 TOPS │ ├──────────────────────────────────────────┤ │ 显存规格: │ │ ├── 容量: 24GB GDDR6X │ │ ├── 带宽: 1008 GB/s │ │ └── 总线: 384-bit │ ├──────────────────────────────────────────┤ │ 互联: │ │ ├── NVLink: 不支持 │ │ └── PCIe 4.0 x16: 64GB/s │ └──────────────────────────────────────────┘ 消费级GPU限制: ├── 无NVLink支持 ├── 多卡通信受限 ├── 显存带宽较低 ├── 无ECC保护 └── 适合小模型训练/推理
国产GPU
主要国产GPU对比
| 产品 | 厂商 | 显存 | 算力(FP16) |
|---|---|---|---|
| 天数智芯BI150 | 天数智芯 | 32GB HBM2 | 160 TFLOPs |
| 壁砺系列 | 壁仞科技 | 64GB | 256 TFLOPs |
| 沐曦MXC500 | 沐曦 | 64GB HBM2e | 200 TFLOPs |
| 摩尔线程MTT S4000 | 摩尔线程 | 48GB | - |
型号对比
主流AI训练GPU综合对比
| 指标 | A100-80GB | H100-80GB | RTX 4090 |
|---|---|---|---|
| FP16算力 | 312 TF | 1979 TF | 330 TF |
| 显存容量 | 80GB | 80GB | 24GB |
| 内存带宽 | 2.0 TB/s | 3.35 TB/s | 1.0 TB/s |
| NVLink | 600 GB/s | 900 GB/s | 不支持 |
| TDP | 400W | 700W | 450W |
| 参考价格 | $15,000+ | $30,000+ | $1,600 |
选型指南
GPU选型建议
GPU选型建议:
├── 大模型训练 (≥70B参数)
│ ├── 首选: H100
│ ├── 次选: A100-80GB
│ └── 需要多卡并行
│
├── 中等模型训练 (7B-70B)
│ ├── 首选: A100-80GB
│ ├── 次选: A100-40GB
│ └── 消费级: 多张RTX 4090
│
├── 小模型训练 (≤7B)
│ ├── 首选: A100-40GB
│ ├── 次选: RTX 4090
│ └── 单卡可完成
│
├── 推理场景
│ ├── 大流量: A100/H100
│ ├── 中等流量: A10/L40
│ └── 开发测试: RTX 4090
│
└── 预算有限
├── 单卡训练: RTX 4090
├── 多卡训练: A100-40GB
└── 云服务按需使用