大模型时代
2017年Transformer架构的提出,为大语言模型奠定了基础。GPT系列的迭代、BERT的创新、ChatGPT的爆发,共同开启了AI的新纪元。
共 3 篇文章·阅读时间:约40分钟
01GPT系列演进
OpenAI的GPT系列是大语言模型发展的缩影。从GPT-1的探索到GPT-4的惊艳,每一代都带来了质的飞跃。
发展历程
GPT-1 (2018.06)
1.17亿参数- 首次验证"预训练+微调"范式
- 在多个NLP任务上取得好成绩
- 证明无标注数据预训练的可行性
GPT-2 (2019.02)
15亿参数- 规模扩大带来能力提升
- 生成流畅的长文本
- 因"危险"最初拒绝公开完整模型
GPT-3 (2020.06)
1750亿参数- 展示惊人的上下文学习能力
- 无需微调,仅通过提示完成任务
- 涌现能力的首次大规模展示
GPT-4 (2023.03)
万亿级参数(估计)- 多模态能力,理解图像
- 推理能力大幅提升
- 在专业考试中表现优异
能力提升
- 语言理解:从简单匹配到深层语义理解
- 生成能力:从短文本到长篇连贯文章
- 推理能力:从简单逻辑到复杂多步推理
- 多模态:从纯文本到图文理解
02BERT革命
2018年,Google推出的BERT彻底改变了NLP领域。双向编码的创新使得模型能够更好地理解语言上下文。
创新点
双向编码
同时利用左右上下文,而非像GPT那样只看左边。更接近人类的阅读理解方式。
掩码语言模型
随机遮盖输入中的一些词,让模型预测。这是BERT的预训练任务。
下一句预测
判断两个句子是否连续,帮助模型理解句子间关系。
BERT的名字
BERT = Bidirectional Encoder Representations from Transformers,来自Transformers的双向编码器表示。
影响
- 刷新纪录:在11项NLP任务上取得SOTA
- 预训练范式:确立了"预训练+微调"的标准流程
- 搜索引擎:Google搜索在2019年开始使用BERT
- 后续模型:催生了RoBERTa、ALBERT、DistilBERT等变体
GPT vs BERT
| 特性 | GPT | BERT |
|---|---|---|
| 架构 | Decoder | Encoder |
| 方向 | 单向(从左到右) | 双向 |
| 预训练任务 | 预测下一个词 | 掩码预测 |
| 擅长任务 | 文本生成 | 文本理解 |
03ChatGPT爆发
2022年11月30日,OpenAI发布ChatGPT。这个看似简单的聊天机器人,在两个月内用户破亿,成为历史上增长最快的消费应用。
成功因素
RLHF对齐
基于人类反馈的强化学习,让模型更符合人类期望,减少有害输出。
对话界面
简单直观的聊天界面,降低了使用门槛,任何人都能轻松使用。
实用能力
能完成写作、编程、分析等实际任务,不仅仅是演示品。
免费开放
初期完全免费,吸引了大量用户体验和传播。
增长数据
- 5天:100万用户
- 2个月:1亿用户
- 相比之下,TikTok用了9个月,Instagram用了2.5年
社会影响
- AI大众化:普通人第一次真正使用AI
- 工作变革:引发对AI替代工作的讨论
- 教育冲击:学术界重新思考作业和考试形式
- 产业重塑:搜索引擎、客服、写作等行业面临变革
- AI竞赛:Google、微软、Meta等巨头加速AI布局
大模型时代的启示
ChatGPT的成功证明了AI已经从实验室走向大众。大模型时代的到来,意味着AI将深刻改变每一个行业。我们正处于一个历史性的转折点,未来已来。