GPT系列演进
从2018年的GPT-1到2023年的GPT-4,OpenAI通过持续的规模扩展和技术创新,展示了大模型的惊人潜力。GPT系列的演进是理解大模型发展的最佳案例。
时间跨度:2018-2024·阅读时间:约15分钟
GPT-1:开创先河
背景与动机
2018年6月,OpenAI发布GPT-1(Generative Pre-trained Transformer):
- 验证"预训练+微调"范式的可行性
- 探索无监督学习在NLP中的应用
- 展示Transformer在语言建模上的威力
模型规模
参数量:1.17亿
训练数据:BookCorpus(约7000本书)
层数:12层
隐藏维度:768
核心贡献
- 预训练范式:在大规模文本上预训练,再微调下游任务
- 统一架构:同一模型处理多种NLP任务
- 生成能力:展示了生成长文本的能力
局限性
- 规模较小,能力有限
- 需要微调才能在任务上表现良好
- 没有展示出涌现能力
GPT-2:规模的力量
发布背景
2019年2月,OpenAI发布GPT-2,但最初因"可能被滥用"而拒绝公开完整模型:
- 展示了零样本学习能力
- 能够生成连贯的长文本
- 引发了关于AI安全的讨论
规模升级
| 版本 | 参数量 | 层数 | 隐藏维度 |
|---|---|---|---|
| GPT-2 Small | 1.17亿 | 12 | 768 |
| GPT-2 Medium | 3.45亿 | 24 | 1024 |
| GPT-2 Large | 7.74亿 | 36 | 1280 |
| GPT-2 XL | 15.4亿 | 48 | 1600 |
训练数据
- WebText数据集:约800万网页
- 来自Reddit外链的高质量内容
- 数据质量比GPT-1显著提升
零样本学习
GPT-2的突破性发现:
- 无需微调,直接用提示词完成任务
- 翻译、摘要、问答等任务表现出色
- 证明了规模带来的能力提升
GPT-3:涌现能力
巨大飞跃
2020年6月,GPT-3的发布改变了AI格局:
- 1750亿参数,是GPT-2的10倍以上
- 展示了令人惊叹的Few-shot学习能力
- 首次展现出真正的涌现能力
模型规模
参数量:1750亿
层数:96层
隐藏维度:12288
注意力头数:96
训练数据:约500B tokens
涌现能力
GPT-3展示了前所未有的能力:
Few-shot学习
给出几个示例,模型就能学会新任务。不再需要微调。
代码生成
能够编写简单的程序代码,理解编程逻辑。
数学推理
解决数学问题,进行简单的推理。
创意写作
写诗、写文章、创作故事,展现出创造性。
API服务
OpenAI推出了GPT-3 API服务:
- 开发者可以通过API调用GPT-3
- 催生了大量AI应用
- 建立了OpenAI的商业模式
GPT-4:多模态突破
发布
2023年3月,OpenAI发布GPT-4:
- 支持图像输入,实现多模态
- 推理能力大幅提升
- 在各类考试中表现优异
能力提升
| 考试 | GPT-3.5 | GPT-4 |
|---|---|---|
| 模拟律师考试 | 后10% | 前10% |
| SAT数学 | 70% | 89% |
| SAT阅读 | 87% | 93% |
| GRE写作 | 54% | 99% |
多模态能力
- 理解图像内容
- 解读图表和截图
- 分析手写内容
- 视觉推理
安全与对齐
GPT-4在安全性方面投入更多:
- RLHF训练
- 减少有害输出
- 提高事实准确性
- 安全系统评测
规模化定律
规模与能力的关系
GPT系列验证了规模化定律:
- 模型性能随规模平滑提升
- 某些能力在规模阈值后涌现
- 数据质量和数量同样重要
GPT系列规模对比
| 模型 | 参数量 | 发布时间 | 关键能力 |
|---|---|---|---|
| GPT-1 | 1.17亿 | 2018.06 | 预训练+微调 |
| GPT-2 | 15亿 | 2019.02 | 零样本学习 |
| GPT-3 | 1750亿 | 2020.06 | Few-shot、涌现 |
| GPT-4 | 未公开 | 2023.03 | 多模态、强推理 |
未来展望
技术方向
- 更大规模:继续扩大模型规模
- 更长上下文:处理更长的输入
- 更强推理:系统2思维
- 更多模态:音频、视频
应用前景
- 个人AI助手
- 代码开发和调试
- 科研辅助
- 创意内容生成
挑战
- 能源消耗和成本
- 幻觉和准确性
- 安全和对齐
- 监管和伦理