GPT-3模型架构

175B参数的语言模型架构详解

架构概述

GPT-3延续了GPT-2的Decoder-only Transformer架构，但规模扩大到175B参数，是当时最大的语言模型，证明了规模扩展的有效性。

175B

参数量

96

层数

12288

隐藏维度

2048

上下文长度

模型配置

配置	参数量	层数	头数	隐藏维度
GPT-3 Small	125M	12	12	768
GPT-3 Medium	350M	24	16	1024
GPT-3 Large	760M	24	16	1536
GPT-3 6.7B	6.7B	32	32	4096
GPT-3 175B	175B	96	96	12288

架构特点

预归一化

LayerNorm在注意力前应用，训练更稳定

稀疏注意力模式

部分层使用稀疏注意力降低计算量

并行注意力

注意力层并行计算，提高效率

交替稠密块

部分层稠密注意力，部分稀疏

训练规模

# 训练配置

训练数据: ~500B tokens

训练计算: ~3.64E23 FLOPs

GPU数量: ~10,000 V100

训练时间: 数月

----