规模设计

大模型规模设计的核心原则

Scaling Laws概述

Scaling Laws（规模定律）描述了模型性能与参数量、数据量、计算量之间的幂律关系。这一发现对大模型的设计和训练具有根本性指导意义。

# 核心公式

L(N) = (N_c/N)^α_N (参数量影响)

L(D) = (D_c/D)^α_D (数据量影响)

L(C) = (C_c/C)^α_C (计算量影响)

# L为损失，N为参数量，D为数据量，C为计算量

模型的可学习参数总数，决定模型容量。通常以B（十亿）为单位。

常见规模: 7B、13B、34B、70B、405B

参数量增加带来性能提升，但边际效益递减

训练过程中模型看到的token数量，通常以T（万亿）为单位。

经验法则: D ≈ 20 × N (Chinchilla最优)

LLaMA-7B训练2T tokens，超过Chinchilla建议

训练消耗的总计算量，以FLOPs为单位，常用PFLOPs-day表示。

C ≈ 6 × N × D

GPT-4估计训练计算量约 2.1e25 FLOPs

DeepMind的Chinchilla论文指出，给定计算预算时，存在最优的参数量和数据量配比：

# Chinchilla最优比例

N_opt ∝ C^0.5

D_opt ∝ C^0.5

# 数据量与参数量应等比例增长

# D_opt ≈ 20 × N_opt

模型	参数量	训练数据	tokens/参数
GPT-3	175B	300B	~1.7×
LLaMA-7B	7B	1T	~143×
LLaMA-2-70B	70B	2T	~29×
LLaMA-3-8B	8B	15T	~1875×
Chinchilla	70B	1.4T	~20×

•

超过Chinchilla训练

现代LLM普遍采用更多数据训练，提升推理效率

•

推理成本考量

小参数大训练的模型推理更经济

•

数据质量优先

高质量数据比数量更重要

----