规模设计

大模型规模设计的核心原则

Scaling Laws概述

Scaling Laws(规模定律)描述了模型性能与参数量、数据量、计算量之间的幂律关系。 这一发现对大模型的设计和训练具有根本性指导意义。

# 核心公式
L(N) = (N_c/N)^α_N (参数量影响)
L(D) = (D_c/D)^α_D (数据量影响)
L(C) = (C_c/C)^α_C (计算量影响)
# L为损失,N为参数量,D为数据量,C为计算量

三个关键维度

参数量(N)

模型的可学习参数总数,决定模型容量。通常以B(十亿)为单位。

常见规模: 7B、13B、34B、70B、405B
参数量增加带来性能提升,但边际效益递减

训练数据量(D)

训练过程中模型看到的token数量,通常以T(万亿)为单位。

经验法则: D ≈ 20 × N (Chinchilla最优)
LLaMA-7B训练2T tokens,超过Chinchilla建议

计算量(C)

训练消耗的总计算量,以FLOPs为单位,常用PFLOPs-day表示。

C ≈ 6 × N × D
GPT-4估计训练计算量约 2.1e25 FLOPs

Chinchilla最优

DeepMind的Chinchilla论文指出,给定计算预算时,存在最优的参数量和数据量配比:

# Chinchilla最优比例
N_opt ∝ C^0.5
D_opt ∝ C^0.5
# 数据量与参数量应等比例增长
# D_opt ≈ 20 × N_opt

主流模型规模对比

模型参数量训练数据tokens/参数
GPT-3175B300B~1.7×
LLaMA-7B7B1T~143×
LLaMA-2-70B70B2T~29×
LLaMA-3-8B8B15T~1875×
Chinchilla70B1.4T~20×

设计建议

超过Chinchilla训练

现代LLM普遍采用更多数据训练,提升推理效率

推理成本考量

小参数大训练的模型推理更经济

数据质量优先

高质量数据比数量更重要

----