规模设计
大模型规模设计的核心原则
Scaling Laws概述
Scaling Laws(规模定律)描述了模型性能与参数量、数据量、计算量之间的幂律关系。 这一发现对大模型的设计和训练具有根本性指导意义。
# 核心公式
L(N) = (N_c/N)^α_N (参数量影响)
L(D) = (D_c/D)^α_D (数据量影响)
L(C) = (C_c/C)^α_C (计算量影响)
# L为损失,N为参数量,D为数据量,C为计算量
三个关键维度
参数量(N)
模型的可学习参数总数,决定模型容量。通常以B(十亿)为单位。
常见规模: 7B、13B、34B、70B、405B
参数量增加带来性能提升,但边际效益递减
训练数据量(D)
训练过程中模型看到的token数量,通常以T(万亿)为单位。
经验法则: D ≈ 20 × N (Chinchilla最优)
LLaMA-7B训练2T tokens,超过Chinchilla建议
计算量(C)
训练消耗的总计算量,以FLOPs为单位,常用PFLOPs-day表示。
C ≈ 6 × N × D
GPT-4估计训练计算量约 2.1e25 FLOPs
Chinchilla最优
DeepMind的Chinchilla论文指出,给定计算预算时,存在最优的参数量和数据量配比:
# Chinchilla最优比例
N_opt ∝ C^0.5
D_opt ∝ C^0.5
# 数据量与参数量应等比例增长
# D_opt ≈ 20 × N_opt
主流模型规模对比
| 模型 | 参数量 | 训练数据 | tokens/参数 |
|---|---|---|---|
| GPT-3 | 175B | 300B | ~1.7× |
| LLaMA-7B | 7B | 1T | ~143× |
| LLaMA-2-70B | 70B | 2T | ~29× |
| LLaMA-3-8B | 8B | 15T | ~1875× |
| Chinchilla | 70B | 1.4T | ~20× |
设计建议
•
超过Chinchilla训练
现代LLM普遍采用更多数据训练,提升推理效率
•
推理成本考量
小参数大训练的模型推理更经济
•
数据质量优先
高质量数据比数量更重要
----