基础概念

算力（Computing Power）是数字时代的核心基础设施，是人工智能发展的基石。深入理解算力的基本概念、度量单位和发展趋势，对于把握AI技术发展至关重要。

预计阅读时间：55分钟·难度：入门·更新时间：2024年4月

什么是算力

算力定义

算力是指计算机系统在单位时间内完成计算任务的能力，是衡量计算机性能的核心指标。在人工智能时代，算力已成为与数据、算法并列的三大核心要素之一，被称为数字时代的"水电煤"。

核心定义

狭义定义：计算机处理器的计算能力，用每秒执行的运算次数衡量
广义定义：包括计算、存储、网络在内的综合信息处理能力
AI算力：专门用于AI训练和推理的计算能力，通常以GPU/NPU为主

算力构成要素

完整的算力能力由三大要素构成，缺一不可：

算力三要素

要素	描述	关键指标
计算能力	处理器执行运算的核心能力	FLOPS、TOPS
存储能力	数据的存储和读取能力	容量、带宽、延迟
网络能力	数据传输和通信能力	带宽、延迟、吞吐量

木桶效应

算力效能取决于最短的木板。如果存储带宽跟不上计算速度，GPU就会空转等待数据；如果网络带宽不足，分布式训练效率就会大打折扣。因此，算力规划需要整体考虑。

算力的重要性

1. AI时代的基础设施

大模型的发展对算力需求呈指数级增长。GPT-4的训练消耗了约25000张A100 GPU卡月的算力，算力已成为决定AI应用能力的关键因素。

2. 国家战略资源

算力已成为国家战略竞争的重要领域。美国限制高端GPU出口，欧盟推出EuroHPC计划，中国加快建设算力基础设施，算力竞争已成为大国博弈的新焦点。

3. 数字经济引擎

算力支撑科学研究、工业制造、金融服务、医疗健康等各领域的数字化转型。据测算，算力指数每提高1点，数字经济GDP增加约0.2%。

4. 科研突破保障

气候模拟、药物研发、基因测序、材料科学等前沿领域都依赖强大的算力支持。超级计算机已成为科学发现的第三支柱（理论、实验、计算）。

算力单位体系

FLOPS详解

FLOPS（Floating-point Operations Per Second）即每秒浮点运算次数，是衡量计算机算力的最常用和最权威的单位。

FLOPS数量级

单位	中文名	数值	典型应用
MFLOPS	百万次	10^6	早期CPU
GFLOPS	十亿次	10^9	现代CPU
TFLOPS	万亿次	10^12	GPU、工作站
PFLOPS	千万亿次	10^15	超算中心
EFLOPS	百亿亿次	10^18	顶级超算
ZFLOPS	十万亿亿次	10^21	未来超算

精度与算力

不同数值精度的算力差异巨大，选择合适的精度是优化AI计算的关键：

数值精度对比

精度类型	位数	典型应用	相对性能
FP64（双精度）	64位	科学计算、仿真	1x
FP32（单精度）	32位	传统深度学习	2x
TF32	19位	A100默认精度	8x
BF16	16位	AI训练主流	16x
FP16	16位	混合精度训练	16x
INT8	8位	AI推理	32x

其他常用单位

TOPS

Tera Operations Per Second，每秒万亿次运算。通常用于衡量AI推理性能，特别是整数运算能力。NVIDIA H100的INT8算力达3958 TOPS。

IPS

Instructions Per Second，每秒指令数。用于衡量CPU通用计算能力，但不适合衡量GPU等并行计算设备的AI算力。

Tokens/s

每秒处理的Token数。专门用于衡量大模型推理性能的实用指标，直观反映用户感知的响应速度。

算力度量方法

峰值算力

峰值算力是设备在理想条件下能够达到的最大计算能力，通常作为产品的宣传指标。

峰值算力计算公式

峰值FLOPS = 核心数 × 频率 × 每周期运算数

示例：NVIDIA H100
- CUDA核心: 16896个
- 加速频率: 1980 MHz
- FP64每周期运算: 2
- 峰值FP64: 16896 × 1980 × 2 ≈ 67 TFLOPS

有效算力

有效算力是实际应用中能够利用的算力，通常远低于峰值算力。算力利用率是衡量系统效率的关键指标。

影响有效算力的因素

内存带宽：数据传输速度跟不上计算速度
通信延迟：分布式训练中的网络开销
负载不均：任务分配导致部分设备空闲
软件效率：框架优化程度、算法效率
热限制：过热降频影响性能

算力效率

典型场景的算力效率

场景	典型效率	说明
单卡训练	40-60%	受内存带宽限制
多卡训练	30-50%	通信开销增加
大规模集群	20-40%	网络成为瓶颈
推理服务	50-80%	批处理可提高效率

发展历程与趋势

算力发展简史

里程碑事件

1946年：ENIAC诞生，人类第一台电子计算机，算力约5000次加法/秒
1965年：摩尔定律提出，预测晶体管数量每18个月翻倍
1997年：深蓝击败国际象棋冠军，算力约11.4 GFLOPS
2012年：AlexNet使用GPU训练，开启深度学习时代
2020年：GPT-3训练完成，算力需求达3640 PFLOPS-days
2022年：Frontier成为首个EFLOPS级超算
2024年：H100成为AI训练主流，GB200发布

摩尔定律与算力

摩尔定律预言晶体管数量每18-24个月翻倍，推动了计算能力持续提升。但随着物理极限临近，摩尔定律正在放缓。

后摩尔时代的算力提升路径

架构创新：GPU、TPU、NPU等专用架构
先进封装：Chiplet、3D堆叠技术
新材料：硅光子、碳纳米管
新范式：量子计算、神经形态计算

AI时代算力变革

AI算力需求增长

模型规模与算力需求（估算）：

GPT-2 (2019):  1.5B参数  → 约 256张V100·天
GPT-3 (2020):  175B参数  → 约 1024张V100·月
GPT-4 (2023):  ~1.8T参数 → 约 25000张A100·月
GPT-5 (预计):  ~10T参数  → 数十万张H100·月

规律：模型参数量每增长10倍，算力需求约增长100倍

典型设备算力对比

主流AI芯片算力对比（FP16/BF16）

设备	FP16 TFLOPS	显存	带宽
NVIDIA H100	1979	80GB HBM3	3.35 TB/s
NVIDIA A100	312	80GB HBM2e	2.0 TB/s
NVIDIA RTX 4090	330	24GB GDDR6X	1.0 TB/s
华为昇腾910B	~376	64GB HBM2e	1.6 TB/s
Google TPU v5	~459	95GB HBM	2.76 TB/s

AI算力知识

← 返回目录

算力类型 →