基础概念

算力(Computing Power)是数字时代的核心基础设施,是人工智能发展的基石。 深入理解算力的基本概念、度量单位和发展趋势,对于把握AI技术发展至关重要。

预计阅读时间:55分钟·难度:入门·更新时间:2024年4月

什么是算力

算力定义

算力是指计算机系统在单位时间内完成计算任务的能力,是衡量计算机性能的核心指标。 在人工智能时代,算力已成为与数据、算法并列的三大核心要素之一, 被称为数字时代的"水电煤"。

核心定义

  • 狭义定义:计算机处理器的计算能力,用每秒执行的运算次数衡量
  • 广义定义:包括计算、存储、网络在内的综合信息处理能力
  • AI算力:专门用于AI训练和推理的计算能力,通常以GPU/NPU为主

算力构成要素

完整的算力能力由三大要素构成,缺一不可:

算力三要素

要素描述关键指标
计算能力处理器执行运算的核心能力FLOPS、TOPS
存储能力数据的存储和读取能力容量、带宽、延迟
网络能力数据传输和通信能力带宽、延迟、吞吐量

木桶效应

算力效能取决于最短的木板。如果存储带宽跟不上计算速度,GPU就会空转等待数据; 如果网络带宽不足,分布式训练效率就会大打折扣。因此,算力规划需要整体考虑。

算力的重要性

1. AI时代的基础设施

大模型的发展对算力需求呈指数级增长。GPT-4的训练消耗了约25000张A100 GPU卡月的算力, 算力已成为决定AI应用能力的关键因素。

2. 国家战略资源

算力已成为国家战略竞争的重要领域。美国限制高端GPU出口,欧盟推出EuroHPC计划, 中国加快建设算力基础设施,算力竞争已成为大国博弈的新焦点。

3. 数字经济引擎

算力支撑科学研究、工业制造、金融服务、医疗健康等各领域的数字化转型。 据测算,算力指数每提高1点,数字经济GDP增加约0.2%。

4. 科研突破保障

气候模拟、药物研发、基因测序、材料科学等前沿领域都依赖强大的算力支持。 超级计算机已成为科学发现的第三支柱(理论、实验、计算)。

算力单位体系

FLOPS详解

FLOPS(Floating-point Operations Per Second)即每秒浮点运算次数, 是衡量计算机算力的最常用和最权威的单位。

FLOPS数量级

单位中文名数值典型应用
MFLOPS百万次10^6早期CPU
GFLOPS十亿次10^9现代CPU
TFLOPS万亿次10^12GPU、工作站
PFLOPS千万亿次10^15超算中心
EFLOPS百亿亿次10^18顶级超算
ZFLOPS十万亿亿次10^21未来超算

精度与算力

不同数值精度的算力差异巨大,选择合适的精度是优化AI计算的关键:

数值精度对比

精度类型位数典型应用相对性能
FP64(双精度)64位科学计算、仿真1x
FP32(单精度)32位传统深度学习2x
TF3219位A100默认精度8x
BF1616位AI训练主流16x
FP1616位混合精度训练16x
INT88位AI推理32x

其他常用单位

TOPS

Tera Operations Per Second,每秒万亿次运算。通常用于衡量AI推理性能, 特别是整数运算能力。NVIDIA H100的INT8算力达3958 TOPS。

IPS

Instructions Per Second,每秒指令数。用于衡量CPU通用计算能力, 但不适合衡量GPU等并行计算设备的AI算力。

Tokens/s

每秒处理的Token数。专门用于衡量大模型推理性能的实用指标, 直观反映用户感知的响应速度。

算力度量方法

峰值算力

峰值算力是设备在理想条件下能够达到的最大计算能力,通常作为产品的宣传指标。

峰值算力计算公式

峰值FLOPS = 核心数 × 频率 × 每周期运算数

示例:NVIDIA H100
- CUDA核心: 16896个
- 加速频率: 1980 MHz
- FP64每周期运算: 2
- 峰值FP64: 16896 × 1980 × 2 ≈ 67 TFLOPS

有效算力

有效算力是实际应用中能够利用的算力,通常远低于峰值算力。 算力利用率是衡量系统效率的关键指标。

影响有效算力的因素

  • 内存带宽:数据传输速度跟不上计算速度
  • 通信延迟:分布式训练中的网络开销
  • 负载不均:任务分配导致部分设备空闲
  • 软件效率:框架优化程度、算法效率
  • 热限制:过热降频影响性能

算力效率

典型场景的算力效率

场景典型效率说明
单卡训练40-60%受内存带宽限制
多卡训练30-50%通信开销增加
大规模集群20-40%网络成为瓶颈
推理服务50-80%批处理可提高效率

典型设备算力对比

主流AI芯片算力对比(FP16/BF16)

设备FP16 TFLOPS显存带宽
NVIDIA H100197980GB HBM33.35 TB/s
NVIDIA A10031280GB HBM2e2.0 TB/s
NVIDIA RTX 409033024GB GDDR6X1.0 TB/s
华为昇腾910B~37664GB HBM2e1.6 TB/s
Google TPU v5~45995GB HBM2.76 TB/s
AI算力知识
← 返回目录
----