GPT-3模型架构
175B参数的语言模型架构详解
架构概述
GPT-3延续了GPT-2的Decoder-only Transformer架构,但规模扩大到175B参数, 是当时最大的语言模型,证明了规模扩展的有效性。
175B
参数量
96
层数
12288
隐藏维度
2048
上下文长度
模型配置
| 配置 | 参数量 | 层数 | 头数 | 隐藏维度 |
|---|---|---|---|---|
| GPT-3 Small | 125M | 12 | 12 | 768 |
| GPT-3 Medium | 350M | 24 | 16 | 1024 |
| GPT-3 Large | 760M | 24 | 16 | 1536 |
| GPT-3 6.7B | 6.7B | 32 | 32 | 4096 |
| GPT-3 175B | 175B | 96 | 96 | 12288 |
架构特点
预归一化
LayerNorm在注意力前应用,训练更稳定
稀疏注意力模式
部分层使用稀疏注意力降低计算量
并行注意力
注意力层并行计算,提高效率
交替稠密块
部分层稠密注意力,部分稀疏
训练规模
# 训练配置
训练数据: ~500B tokens
训练计算: ~3.64E23 FLOPs
GPU数量: ~10,000 V100
训练时间: 数月
----