大模型时代

2017年Transformer架构的提出，为大语言模型奠定了基础。GPT系列的迭代、BERT的创新、ChatGPT的爆发，共同开启了AI的新纪元。

共 3 篇文章·阅读时间：约40分钟

01GPT系列演进

OpenAI的GPT系列是大语言模型发展的缩影。从GPT-1的探索到GPT-4的惊艳，每一代都带来了质的飞跃。

发展历程

GPT-1 (2018.06)

1.17亿参数

首次验证"预训练+微调"范式
在多个NLP任务上取得好成绩
证明无标注数据预训练的可行性

GPT-2 (2019.02)

15亿参数

规模扩大带来能力提升
生成流畅的长文本
因"危险"最初拒绝公开完整模型

GPT-3 (2020.06)

1750亿参数

展示惊人的上下文学习能力
无需微调，仅通过提示完成任务
涌现能力的首次大规模展示

GPT-4 (2023.03)

万亿级参数(估计)

多模态能力，理解图像
推理能力大幅提升
在专业考试中表现优异

能力提升

语言理解：从简单匹配到深层语义理解
生成能力：从短文本到长篇连贯文章
推理能力：从简单逻辑到复杂多步推理
多模态：从纯文本到图文理解

02BERT革命

2018年，Google推出的BERT彻底改变了NLP领域。双向编码的创新使得模型能够更好地理解语言上下文。

创新点

双向编码

同时利用左右上下文，而非像GPT那样只看左边。更接近人类的阅读理解方式。

掩码语言模型

随机遮盖输入中的一些词，让模型预测。这是BERT的预训练任务。

下一句预测

判断两个句子是否连续，帮助模型理解句子间关系。

BERT的名字

BERT = Bidirectional Encoder Representations from Transformers，来自Transformers的双向编码器表示。

影响

刷新纪录：在11项NLP任务上取得SOTA
预训练范式：确立了"预训练+微调"的标准流程
搜索引擎：Google搜索在2019年开始使用BERT
后续模型：催生了RoBERTa、ALBERT、DistilBERT等变体

GPT vs BERT

特性	GPT	BERT
架构	Decoder	Encoder
方向	单向（从左到右）	双向
预训练任务	预测下一个词	掩码预测
擅长任务	文本生成	文本理解

03ChatGPT爆发

2022年11月30日，OpenAI发布ChatGPT。这个看似简单的聊天机器人，在两个月内用户破亿，成为历史上增长最快的消费应用。

成功因素

RLHF对齐

基于人类反馈的强化学习，让模型更符合人类期望，减少有害输出。

对话界面

简单直观的聊天界面，降低了使用门槛，任何人都能轻松使用。

实用能力

能完成写作、编程、分析等实际任务，不仅仅是演示品。

免费开放

初期完全免费，吸引了大量用户体验和传播。

增长数据

5天：100万用户
2个月：1亿用户
相比之下，TikTok用了9个月，Instagram用了2.5年

社会影响

AI大众化：普通人第一次真正使用AI
工作变革：引发对AI替代工作的讨论
教育冲击：学术界重新思考作业和考试形式
产业重塑：搜索引擎、客服、写作等行业面临变革
AI竞赛：Google、微软、Meta等巨头加速AI布局

大模型时代的启示

ChatGPT的成功证明了AI已经从实验室走向大众。大模型时代的到来，意味着AI将深刻改变每一个行业。我们正处于一个历史性的转折点，未来已来。

← 深度学习革命

机器学习基础 →