GPT-3模型架构

175B参数的语言模型架构详解

架构概述

GPT-3延续了GPT-2的Decoder-only Transformer架构,但规模扩大到175B参数, 是当时最大的语言模型,证明了规模扩展的有效性。

175B
参数量
96
层数
12288
隐藏维度
2048
上下文长度

模型配置

配置参数量层数头数隐藏维度
GPT-3 Small125M1212768
GPT-3 Medium350M24161024
GPT-3 Large760M24161536
GPT-3 6.7B6.7B32324096
GPT-3 175B175B969612288

架构特点

预归一化

LayerNorm在注意力前应用,训练更稳定

稀疏注意力模式

部分层使用稀疏注意力降低计算量

并行注意力

注意力层并行计算,提高效率

交替稠密块

部分层稠密注意力,部分稀疏

训练规模

# 训练配置
训练数据: ~500B tokens
训练计算: ~3.64E23 FLOPs
GPU数量: ~10,000 V100
训练时间: 数月
----