GPU型号详解

选择合适的GPU是AI项目成功的关键因素之一。 本文将详细介绍主流AI训练和推理GPU的规格、特点和应用场景。

预计阅读时间:50分钟·难度:中级·更新时间:2024年4月

GPU型号概述

AI训练和推理对GPU有不同的需求。选择GPU时需要考虑计算能力、显存容量、 内存带宽、互联能力、功耗和成本等多个维度。

GPU选型关键因素

GPU选型考虑因素:
├── 计算能力
│   ├── FLOPs (峰值算力)
│   ├── Tensor Core支持
│   └── 精度支持 (FP16/BF16/FP8)
│
├── 显存规格
│   ├── 容量 (决定最大模型大小)
│   ├── 带宽 (影响吞吐量)
│   └── 类型 (HBM/GDDR)
│
├── 互联能力
│   ├── NVLink带宽
│   ├── PCIe版本
│   └── 多卡拓扑
│
├── 软件生态
│   ├── CUDA版本支持
│   ├── cuDNN优化
│   └── 框架兼容性
│
└── 成本因素
    ├── 硬件成本
    ├── 运营成本 (功耗)
    └── 云服务价格

数据中心GPU

A100详解

NVIDIA A100规格

NVIDIA A100 (Ampere架构):
┌──────────────────────────────────────────┐
│ 核心规格:                                │
│ ├── 架构: Ampere (GA100)                 │
│ ├── 工艺: 7nm (TSMC)                     │
│ ├── 晶体管: 54.2B                        │
│ ├── 芯片面积: 826mm²                     │
│ └── TDP: 400W                            │
├──────────────────────────────────────────┤
│ 计算性能:                                │
│ ├── FP64: 19.5 TFLOPs                    │
│ ├── FP32: 19.5 TFLOPs                    │
│ ├── TF32 Tensor: 156 TFLOPs              │
│ ├── FP16 Tensor: 312 TFLOPs              │
│ ├── BF16 Tensor: 312 TFLOPs              │
│ └── INT8 Tensor: 624 TOPS                │
├──────────────────────────────────────────┤
│ 显存规格:                                │
│ ├── 容量: 40GB / 80GB (HBM2e)            │
│ ├── 带宽: 1.6TB/s / 2.0TB/s              │
│ └── ECC: 支持                            │
├──────────────────────────────────────────┤
│ 互联:                                    │
│ ├── NVLink 3.0: 600GB/s                  │
│ ├── PCIe 4.0 x16: 64GB/s                 │
│ └── NVSwitch支持                         │
└──────────────────────────────────────────┘

A100主要特性

A100核心特性:
├── 第三代Tensor Core
│   ├── 支持TF32格式
│   ├── 深度学习加速20x
│   └── 稀疏计算支持
│
├── Multi-Instance GPU (MIG)
│   ├── 7个独立实例
│   ├── 硬件级隔离
│   └── 适合推理场景
│
├── 结构化稀疏
│   ├── 2:4稀疏模式
│   ├── 理论2x加速
│   └── 推理性能提升
│
└── 第三代NVLink
    ├── 600GB/s带宽
    ├── 全互联拓扑
    └── 8卡互联支持

H100详解

NVIDIA H100规格

NVIDIA H100 (Hopper架构):
┌──────────────────────────────────────────┐
│ 核心规格:                                │
│ ├── 架构: Hopper (GH100)                 │
│ ├── 工艺: 4nm (TSMC)                     │
│ ├── 晶体管: 80B                          │
│ ├── 芯片面积: 814mm²                     │
│ └── TDP: 700W                            │
├──────────────────────────────────────────┤
│ 计算性能:                                │
│ ├── FP64: 34 TFLOPs                      │
│ ├── FP32: 67 TFLOPs                      │
│ ├── TF32 Tensor: 989 TFLOPs              │
│ ├── FP16 Tensor: 1979 TFLOPs             │
│ ├── BF16 Tensor: 1979 TFLOPs             │
│ ├── FP8 Tensor: 3958 TFLOPs              │
│ └── INT8 Tensor: 3958 TOPS               │
├──────────────────────────────────────────┤
│ 显存规格:                                │
│ ├── 容量: 80GB / 94GB (HBM3)             │
│ ├── 带宽: 3.35TB/s                       │
│ └── ECC: 支持                            │
├──────────────────────────────────────────┤
│ 互联:                                    │
│ ├── NVLink 4.0: 900GB/s                  │
│ ├── PCIe 5.0 x16: 128GB/s                │
│ └── NVSwitch支持                         │
└──────────────────────────────────────────┘

H100新增特性

H100新增核心特性:
├── 第四代Tensor Core
│   ├── FP8格式支持
│   ├── Transformer Engine
│   └── 相比A100算力翻倍
│
├── Transformer Engine
│   ├── 自动精度选择
│   ├── FP8/FP16混合
│   └── 大模型训练加速
│
├── 新的DPX指令
│   ├── 动态规划加速
│   ├── 基因组学加速7x
│   └── 路径优化加速
│
└── 机密计算
    ├── 虚拟机加密
    ├── 安全启动
    └── 数据保护

A100 vs H100 大模型训练性能:
├── GPT-3 175B训练: 3x加速
├── LLaMA-2 70B训练: 2.5x加速
└── 推理吞吐: 2-4x提升

消费级GPU

RTX 4090详解

RTX 4090规格

NVIDIA RTX 4090 (Ada Lovelace架构):
┌──────────────────────────────────────────┐
│ 核心规格:                                │
│ ├── 架构: Ada Lovelace (AD102)           │
│ ├── 工艺: 4nm (TSMC)                     │
│ ├── CUDA核心: 16384                      │
│ ├── Tensor Core: 512 (第四代)            │
│ └── TDP: 450W                            │
├──────────────────────────────────────────┤
│ 计算性能:                                │
│ ├── FP32: 82.6 TFLOPs                    │
│ ├── FP16 Tensor: 330 TFLOPs              │
│ └── INT8: 660 TOPS                       │
├──────────────────────────────────────────┤
│ 显存规格:                                │
│ ├── 容量: 24GB GDDR6X                    │
│ ├── 带宽: 1008 GB/s                      │
│ └── 总线: 384-bit                        │
├──────────────────────────────────────────┤
│ 互联:                                    │
│ ├── NVLink: 不支持                       │
│ └── PCIe 4.0 x16: 64GB/s                 │
└──────────────────────────────────────────┘

消费级GPU限制:
├── 无NVLink支持
├── 多卡通信受限
├── 显存带宽较低
├── 无ECC保护
└── 适合小模型训练/推理

国产GPU

主要国产GPU对比

产品厂商显存算力(FP16)
天数智芯BI150天数智芯32GB HBM2160 TFLOPs
壁砺系列壁仞科技64GB256 TFLOPs
沐曦MXC500沐曦64GB HBM2e200 TFLOPs
摩尔线程MTT S4000摩尔线程48GB-

型号对比

主流AI训练GPU综合对比

指标A100-80GBH100-80GBRTX 4090
FP16算力312 TF1979 TF330 TF
显存容量80GB80GB24GB
内存带宽2.0 TB/s3.35 TB/s1.0 TB/s
NVLink600 GB/s900 GB/s不支持
TDP400W700W450W
参考价格$15,000+$30,000+$1,600

选型指南

GPU选型建议

GPU选型建议:
├── 大模型训练 (≥70B参数)
│   ├── 首选: H100
│   ├── 次选: A100-80GB
│   └── 需要多卡并行
│
├── 中等模型训练 (7B-70B)
│   ├── 首选: A100-80GB
│   ├── 次选: A100-40GB
│   └── 消费级: 多张RTX 4090
│
├── 小模型训练 (≤7B)
│   ├── 首选: A100-40GB
│   ├── 次选: RTX 4090
│   └── 单卡可完成
│
├── 推理场景
│   ├── 大流量: A100/H100
│   ├── 中等流量: A10/L40
│   └── 开发测试: RTX 4090
│
└── 预算有限
    ├── 单卡训练: RTX 4090
    ├── 多卡训练: A100-40GB
    └── 云服务按需使用
----