发展历程

语言模型的发展是一部从统计方法到深度学习的演进史。从简单的N-gram统计到神经网络语言模型,再到今天的大模型时代,每一步都为AI的发展奠定了基础。

共 4 篇文章·阅读时间:约56分钟

01早期语言模型

语言模型的发展是一部从统计方法到深度学习的演进史。从简单的N-gram统计到神经网络语言模型,再到词向量的突破,每一步都为今天的大模型奠定了基础。

语言模型的起源

语言模型的核心任务是预测下一个词的概率。这个问题看似简单,却蕴含着对语言的深刻理解。

为什么需要语言模型

语言模型在自然语言处理中有广泛应用:

  • 语音识别:判断哪个词序列更可能
  • 机器翻译:生成流畅的目标语言
  • 拼写纠错:预测正确的拼写
  • 输入法:预测下一个词

发展时间线

1980sN-gram模型成为主流
2003Bengio提出神经语言模型
2013Word2Vec引爆词向量研究

N-gram模型

基本原理

N-gram是最早的语言模型,基于一个简单假设:下一个词只依赖于前面n-1个词。

条件概率计算

P(w_n | w_1, w_2, ..., w_{n-1}) ≈ P(w_n | w_{n-N+1}, ..., w_{n-1})

常见的N-gram类型

  • Unigram(1-gram):只考虑当前词,忽略上下文
  • Bigram(2-gram):考虑前一个词
  • Trigram(3-gram):考虑前两个词
  • 4-gram、5-gram:更长的上下文

N-gram的优缺点

  • 优点:原理简单,训练速度快,对硬件要求低
  • 缺点:数据稀疏,上下文有限,泛化能力弱

Word2Vec突破

2013年,Google的Mikolov等人提出了Word2Vec,让词向量技术真正走向实用。

两种架构

CBOW(连续词袋)

根据上下文词预测中心词。适合小数据集,训练速度快。

Skip-gram

根据中心词预测上下文词。适合大数据集,对低频词效果更好。

惊人的语义能力

Word2Vec发现了词向量中的语义关系:

经典示例

vec("King") - vec("Man") + vec("Woman") ≈ vec("Queen")

02神经语言模型

从静态词向量到上下文相关的表示,神经语言模型的发展带来了NLP领域的范式转变。ELMo、BERT、GPT等模型的出现,开创了预训练语言模型时代。

从静态到动态

Word2Vec和GloVe的词向量是静态的——每个词只有一个固定的向量表示。但同一个词在不同上下文中含义不同:

  • "我去了银行存钱" - 银行指金融机构
  • "他坐在河岸的银行边" - 银行指河岸

ELMo:上下文词向量

2018年,Allen AI提出ELMo(Embeddings from Language Models),首次实现了真正的上下文相关词向量。

  • 双向LSTM:分别从左到右和从右到左编码
  • 多层表示:不同层捕捉不同层次的语言特征
  • 加权融合:根据任务学习每层的权重

BERT革命

Google在2018年底发布BERT(Bidirectional Encoder Representations from Transformers),彻底改变了NLP领域。

核心创新

掩码语言模型(MLM)

随机遮盖15%的词,让模型预测。这样模型可以利用双向上下文。

下一句预测(NSP)

判断两个句子是否连续,学习句子间的关系。

模型规模

模型层数隐藏维度参数量
BERT-Base127681.1亿
BERT-Large2410243.4亿

GPT:自回归生成

OpenAI的GPT选择了不同的路线:使用单向的自回归生成。

  • GPT-1(2018.6):1.17亿参数,证明了预训练+微调的有效性
  • GPT-2(2019.2):15亿参数,展示了零样本学习能力
  • GPT-3(2020.6):1750亿参数,涌现出Few-shot能力

03预训练时代

2018年开始的预训练时代彻底改变了NLP的研究范式。通过在大规模数据上进行预训练,再用少量标注数据微调,模型能够在各种任务上取得突破性表现。

范式转变

在预训练时代之前,NLP模型通常从头开始训练,需要大量标注数据。预训练范式带来了根本改变:

  • 之前:收集标注数据 → 设计模型 → 训练
  • 之后:大规模预训练 → 少量标注微调 → 部署

自监督学习

自监督学习是一种特殊的无监督学习,它从数据本身自动生成标签:

  • 预测下一个词
  • 预测被遮盖的词
  • 判断句子是否连续

预训练任务

掩码语言模型(MLM)

BERT使用,随机遮盖15%的Token,预测原始词

因果语言模型(CLM)

GPT使用,自回归预测下一个词

微调范式

  1. 预训练:在大规模数据上学习通用表示
  2. 添加任务头:在模型顶部添加任务特定层
  3. 微调:在下游任务数据上训练全部参数

模型生态

  • 编码器模型:BERT、RoBERTa、ALBERT
  • 解码器模型:GPT系列、LLaMA
  • 编码器-解码器:T5、BART

04大模型时代

2020年GPT-3的发布标志着大模型时代的开始。规模带来了质变——当模型参数达到千亿级别,涌现出了前所未有的能力。从实验室到大众,从专业工具到通用助手,大模型正在重塑人与AI的关系。

GPT-3:范式转变

2020年6月,OpenAI发布GPT-3,1750亿参数的规模带来了惊人能力:

  • 无需微调即可完成任务(Few-shot)
  • 可以写代码、写诗、写文章
  • 展现出了一定的推理能力
  • 证明了"大力出奇迹"

规模化定律

OpenAI在2020年发表了关于规模化定律的研究,揭示了模型性能与规模的关系:

  • 模型规模:参数量越大,性能越好
  • 数据规模:训练数据越多,性能越好
  • 计算量:计算量越大,性能越好

涌现能力

涌现能力是指模型规模达到一定阈值后突然出现的新能力:

上下文学习(In-Context Learning)

通过提示词中的示例快速学会新任务,无需更新参数。

链式推理(Chain-of-Thought)

能够展示推理过程,逐步解决复杂问题。

指令遵循(Instruction Following)

准确理解并执行复杂的自然语言指令。

ChatGPT时刻

2022年11月30日,ChatGPT发布,两个月用户破亿。这不仅是产品成功,更是AI发展的里程碑。

  • 让普通人第一次直接体验AI能力
  • 展示了AI的实用价值
  • 引发了全球对AI的关注和讨论

竞争格局

  • 闭源模型:OpenAI GPT-4、Anthropic Claude、Google Gemini
  • 开源模型:Meta LLaMA、Mistral、Qwen、DeepSeek

未来展望

  • 继续扩大规模:万亿参数甚至更大
  • 多模态融合:统一处理文本、图像、视频
  • 长上下文:处理整本书甚至更多
  • Agent:AI自主完成复杂任务
"我们正站在AI历史的转折点上,大模型带来的变革才刚刚开始。"
----