基础概念
算力(Computing Power)是数字时代的核心基础设施,是人工智能发展的基石。 深入理解算力的基本概念、度量单位和发展趋势,对于把握AI技术发展至关重要。
什么是算力
算力定义
算力是指计算机系统在单位时间内完成计算任务的能力,是衡量计算机性能的核心指标。 在人工智能时代,算力已成为与数据、算法并列的三大核心要素之一, 被称为数字时代的"水电煤"。
核心定义
- 狭义定义:计算机处理器的计算能力,用每秒执行的运算次数衡量
- 广义定义:包括计算、存储、网络在内的综合信息处理能力
- AI算力:专门用于AI训练和推理的计算能力,通常以GPU/NPU为主
算力构成要素
完整的算力能力由三大要素构成,缺一不可:
算力三要素
| 要素 | 描述 | 关键指标 |
|---|---|---|
| 计算能力 | 处理器执行运算的核心能力 | FLOPS、TOPS |
| 存储能力 | 数据的存储和读取能力 | 容量、带宽、延迟 |
| 网络能力 | 数据传输和通信能力 | 带宽、延迟、吞吐量 |
木桶效应
算力效能取决于最短的木板。如果存储带宽跟不上计算速度,GPU就会空转等待数据; 如果网络带宽不足,分布式训练效率就会大打折扣。因此,算力规划需要整体考虑。
算力的重要性
1. AI时代的基础设施
大模型的发展对算力需求呈指数级增长。GPT-4的训练消耗了约25000张A100 GPU卡月的算力, 算力已成为决定AI应用能力的关键因素。
2. 国家战略资源
算力已成为国家战略竞争的重要领域。美国限制高端GPU出口,欧盟推出EuroHPC计划, 中国加快建设算力基础设施,算力竞争已成为大国博弈的新焦点。
3. 数字经济引擎
算力支撑科学研究、工业制造、金融服务、医疗健康等各领域的数字化转型。 据测算,算力指数每提高1点,数字经济GDP增加约0.2%。
4. 科研突破保障
气候模拟、药物研发、基因测序、材料科学等前沿领域都依赖强大的算力支持。 超级计算机已成为科学发现的第三支柱(理论、实验、计算)。
算力单位体系
FLOPS详解
FLOPS(Floating-point Operations Per Second)即每秒浮点运算次数, 是衡量计算机算力的最常用和最权威的单位。
FLOPS数量级
| 单位 | 中文名 | 数值 | 典型应用 |
|---|---|---|---|
| MFLOPS | 百万次 | 10^6 | 早期CPU |
| GFLOPS | 十亿次 | 10^9 | 现代CPU |
| TFLOPS | 万亿次 | 10^12 | GPU、工作站 |
| PFLOPS | 千万亿次 | 10^15 | 超算中心 |
| EFLOPS | 百亿亿次 | 10^18 | 顶级超算 |
| ZFLOPS | 十万亿亿次 | 10^21 | 未来超算 |
精度与算力
不同数值精度的算力差异巨大,选择合适的精度是优化AI计算的关键:
数值精度对比
| 精度类型 | 位数 | 典型应用 | 相对性能 |
|---|---|---|---|
| FP64(双精度) | 64位 | 科学计算、仿真 | 1x |
| FP32(单精度) | 32位 | 传统深度学习 | 2x |
| TF32 | 19位 | A100默认精度 | 8x |
| BF16 | 16位 | AI训练主流 | 16x |
| FP16 | 16位 | 混合精度训练 | 16x |
| INT8 | 8位 | AI推理 | 32x |
其他常用单位
TOPS
Tera Operations Per Second,每秒万亿次运算。通常用于衡量AI推理性能, 特别是整数运算能力。NVIDIA H100的INT8算力达3958 TOPS。
IPS
Instructions Per Second,每秒指令数。用于衡量CPU通用计算能力, 但不适合衡量GPU等并行计算设备的AI算力。
Tokens/s
每秒处理的Token数。专门用于衡量大模型推理性能的实用指标, 直观反映用户感知的响应速度。
算力度量方法
峰值算力
峰值算力是设备在理想条件下能够达到的最大计算能力,通常作为产品的宣传指标。
峰值算力计算公式
峰值FLOPS = 核心数 × 频率 × 每周期运算数 示例:NVIDIA H100 - CUDA核心: 16896个 - 加速频率: 1980 MHz - FP64每周期运算: 2 - 峰值FP64: 16896 × 1980 × 2 ≈ 67 TFLOPS
有效算力
有效算力是实际应用中能够利用的算力,通常远低于峰值算力。 算力利用率是衡量系统效率的关键指标。
影响有效算力的因素
- 内存带宽:数据传输速度跟不上计算速度
- 通信延迟:分布式训练中的网络开销
- 负载不均:任务分配导致部分设备空闲
- 软件效率:框架优化程度、算法效率
- 热限制:过热降频影响性能
算力效率
典型场景的算力效率
| 场景 | 典型效率 | 说明 |
|---|---|---|
| 单卡训练 | 40-60% | 受内存带宽限制 |
| 多卡训练 | 30-50% | 通信开销增加 |
| 大规模集群 | 20-40% | 网络成为瓶颈 |
| 推理服务 | 50-80% | 批处理可提高效率 |
发展历程与趋势
算力发展简史
里程碑事件
- 1946年:ENIAC诞生,人类第一台电子计算机,算力约5000次加法/秒
- 1965年:摩尔定律提出,预测晶体管数量每18个月翻倍
- 1997年:深蓝击败国际象棋冠军,算力约11.4 GFLOPS
- 2012年:AlexNet使用GPU训练,开启深度学习时代
- 2020年:GPT-3训练完成,算力需求达3640 PFLOPS-days
- 2022年:Frontier成为首个EFLOPS级超算
- 2024年:H100成为AI训练主流,GB200发布
摩尔定律与算力
摩尔定律预言晶体管数量每18-24个月翻倍,推动了计算能力持续提升。 但随着物理极限临近,摩尔定律正在放缓。
后摩尔时代的算力提升路径
- 架构创新:GPU、TPU、NPU等专用架构
- 先进封装:Chiplet、3D堆叠技术
- 新材料:硅光子、碳纳米管
- 新范式:量子计算、神经形态计算
AI时代算力变革
AI算力需求增长
模型规模与算力需求(估算): GPT-2 (2019): 1.5B参数 → 约 256张V100·天 GPT-3 (2020): 175B参数 → 约 1024张V100·月 GPT-4 (2023): ~1.8T参数 → 约 25000张A100·月 GPT-5 (预计): ~10T参数 → 数十万张H100·月 规律:模型参数量每增长10倍,算力需求约增长100倍
典型设备算力对比
主流AI芯片算力对比(FP16/BF16)
| 设备 | FP16 TFLOPS | 显存 | 带宽 |
|---|---|---|---|
| NVIDIA H100 | 1979 | 80GB HBM3 | 3.35 TB/s |
| NVIDIA A100 | 312 | 80GB HBM2e | 2.0 TB/s |
| NVIDIA RTX 4090 | 330 | 24GB GDDR6X | 1.0 TB/s |
| 华为昇腾910B | ~376 | 64GB HBM2e | 1.6 TB/s |
| Google TPU v5 | ~459 | 95GB HBM | 2.76 TB/s |