大模型时代

2017年Transformer架构的提出,为大语言模型奠定了基础。GPT系列的迭代、BERT的创新、ChatGPT的爆发,共同开启了AI的新纪元。

共 3 篇文章·阅读时间:约40分钟

01GPT系列演进

OpenAI的GPT系列是大语言模型发展的缩影。从GPT-1的探索到GPT-4的惊艳,每一代都带来了质的飞跃。

发展历程

GPT-1 (2018.06)

1.17亿参数
  • 首次验证"预训练+微调"范式
  • 在多个NLP任务上取得好成绩
  • 证明无标注数据预训练的可行性

GPT-2 (2019.02)

15亿参数
  • 规模扩大带来能力提升
  • 生成流畅的长文本
  • 因"危险"最初拒绝公开完整模型

GPT-3 (2020.06)

1750亿参数
  • 展示惊人的上下文学习能力
  • 无需微调,仅通过提示完成任务
  • 涌现能力的首次大规模展示

GPT-4 (2023.03)

万亿级参数(估计)
  • 多模态能力,理解图像
  • 推理能力大幅提升
  • 在专业考试中表现优异

能力提升

  • 语言理解:从简单匹配到深层语义理解
  • 生成能力:从短文本到长篇连贯文章
  • 推理能力:从简单逻辑到复杂多步推理
  • 多模态:从纯文本到图文理解

02BERT革命

2018年,Google推出的BERT彻底改变了NLP领域。双向编码的创新使得模型能够更好地理解语言上下文。

创新点

双向编码

同时利用左右上下文,而非像GPT那样只看左边。更接近人类的阅读理解方式。

掩码语言模型

随机遮盖输入中的一些词,让模型预测。这是BERT的预训练任务。

下一句预测

判断两个句子是否连续,帮助模型理解句子间关系。

BERT的名字

BERT = Bidirectional Encoder Representations from Transformers,来自Transformers的双向编码器表示。

影响

  • 刷新纪录:在11项NLP任务上取得SOTA
  • 预训练范式:确立了"预训练+微调"的标准流程
  • 搜索引擎:Google搜索在2019年开始使用BERT
  • 后续模型:催生了RoBERTa、ALBERT、DistilBERT等变体

GPT vs BERT

特性GPTBERT
架构DecoderEncoder
方向单向(从左到右)双向
预训练任务预测下一个词掩码预测
擅长任务文本生成文本理解

03ChatGPT爆发

2022年11月30日,OpenAI发布ChatGPT。这个看似简单的聊天机器人,在两个月内用户破亿,成为历史上增长最快的消费应用。

成功因素

RLHF对齐

基于人类反馈的强化学习,让模型更符合人类期望,减少有害输出。

对话界面

简单直观的聊天界面,降低了使用门槛,任何人都能轻松使用。

实用能力

能完成写作、编程、分析等实际任务,不仅仅是演示品。

免费开放

初期完全免费,吸引了大量用户体验和传播。

增长数据

  • 5天:100万用户
  • 2个月:1亿用户
  • 相比之下,TikTok用了9个月,Instagram用了2.5年

社会影响

  • AI大众化:普通人第一次真正使用AI
  • 工作变革:引发对AI替代工作的讨论
  • 教育冲击:学术界重新思考作业和考试形式
  • 产业重塑:搜索引擎、客服、写作等行业面临变革
  • AI竞赛:Google、微软、Meta等巨头加速AI布局

大模型时代的启示

ChatGPT的成功证明了AI已经从实验室走向大众。大模型时代的到来,意味着AI将深刻改变每一个行业。我们正处于一个历史性的转折点,未来已来。

----