GPT系列演进

从2018年的GPT-1到2023年的GPT-4，OpenAI通过持续的规模扩展和技术创新，展示了大模型的惊人潜力。GPT系列的演进是理解大模型发展的最佳案例。

时间跨度：2018-2024·阅读时间：约15分钟

GPT-1：开创先河

背景与动机

2018年6月，OpenAI发布GPT-1（Generative Pre-trained Transformer）：

验证"预训练+微调"范式的可行性
探索无监督学习在NLP中的应用
展示Transformer在语言建模上的威力

模型规模

参数量：1.17亿
训练数据：BookCorpus（约7000本书）
层数：12层
隐藏维度：768

核心贡献

预训练范式：在大规模文本上预训练，再微调下游任务
统一架构：同一模型处理多种NLP任务
生成能力：展示了生成长文本的能力

局限性

规模较小，能力有限
需要微调才能在任务上表现良好
没有展示出涌现能力

GPT-2：规模的力量

发布背景

2019年2月，OpenAI发布GPT-2，但最初因"可能被滥用"而拒绝公开完整模型：

展示了零样本学习能力
能够生成连贯的长文本
引发了关于AI安全的讨论

规模升级

版本	参数量	层数	隐藏维度
GPT-2 Small	1.17亿	12	768
GPT-2 Medium	3.45亿	24	1024
GPT-2 Large	7.74亿	36	1280
GPT-2 XL	15.4亿	48	1600

训练数据

WebText数据集：约800万网页
来自Reddit外链的高质量内容
数据质量比GPT-1显著提升

零样本学习

GPT-2的突破性发现：

无需微调，直接用提示词完成任务
翻译、摘要、问答等任务表现出色
证明了规模带来的能力提升

GPT-3：涌现能力

巨大飞跃

2020年6月，GPT-3的发布改变了AI格局：

1750亿参数，是GPT-2的10倍以上
展示了令人惊叹的Few-shot学习能力
首次展现出真正的涌现能力

模型规模

参数量：1750亿
层数：96层
隐藏维度：12288
注意力头数：96
训练数据：约500B tokens

涌现能力

GPT-3展示了前所未有的能力：

Few-shot学习

给出几个示例，模型就能学会新任务。不再需要微调。

代码生成

能够编写简单的程序代码，理解编程逻辑。

数学推理

解决数学问题，进行简单的推理。

创意写作

写诗、写文章、创作故事，展现出创造性。

API服务

OpenAI推出了GPT-3 API服务：

开发者可以通过API调用GPT-3
催生了大量AI应用
建立了OpenAI的商业模式

GPT-4：多模态突破

发布

2023年3月，OpenAI发布GPT-4：

支持图像输入，实现多模态
推理能力大幅提升
在各类考试中表现优异

能力提升

考试	GPT-3.5	GPT-4
模拟律师考试	后10%	前10%
SAT数学	70%	89%
SAT阅读	87%	93%
GRE写作	54%	99%

多模态能力

理解图像内容
解读图表和截图
分析手写内容
视觉推理

安全与对齐

GPT-4在安全性方面投入更多：

RLHF训练
减少有害输出
提高事实准确性
安全系统评测

规模化定律

规模与能力的关系

GPT系列验证了规模化定律：

模型性能随规模平滑提升
某些能力在规模阈值后涌现
数据质量和数量同样重要

GPT系列规模对比

模型	参数量	发布时间	关键能力
GPT-1	1.17亿	2018.06	预训练+微调
GPT-2	15亿	2019.02	零样本学习
GPT-3	1750亿	2020.06	Few-shot、涌现
GPT-4	未公开	2023.03	多模态、强推理

未来展望

技术方向

更大规模：继续扩大模型规模
更长上下文：处理更长的输入
更强推理：系统2思维
更多模态：音频、视频

应用前景

个人AI助手
代码开发和调试
科研辅助
创意内容生成

挑战

能源消耗和成本
幻觉和准确性
安全和对齐
监管和伦理

GPT-1：开创先河

背景与动机

模型规模

核心贡献

局限性

GPT-2：规模的力量

发布背景

规模升级

训练数据

零样本学习

GPT-3：涌现能力

巨大飞跃

模型规模

涌现能力

Few-shot学习

代码生成

数学推理

创意写作

API服务

GPT-4：多模态突破

发布

能力提升

多模态能力

安全与对齐

规模化定律

规模与能力的关系

GPT系列规模对比

未来展望

技术方向

应用前景

挑战

延伸阅读