发展历程

语言模型的发展是一部从统计方法到深度学习的演进史。从简单的N-gram统计到神经网络语言模型，再到今天的大模型时代，每一步都为AI的发展奠定了基础。

共 4 篇文章·阅读时间：约56分钟

01早期语言模型

语言模型的发展是一部从统计方法到深度学习的演进史。从简单的N-gram统计到神经网络语言模型，再到词向量的突破，每一步都为今天的大模型奠定了基础。

语言模型的起源

语言模型的核心任务是预测下一个词的概率。这个问题看似简单，却蕴含着对语言的深刻理解。

为什么需要语言模型

语言模型在自然语言处理中有广泛应用：

语音识别：判断哪个词序列更可能
机器翻译：生成流畅的目标语言
拼写纠错：预测正确的拼写
输入法：预测下一个词

发展时间线

1980sN-gram模型成为主流

2003Bengio提出神经语言模型

2013Word2Vec引爆词向量研究

N-gram模型

基本原理

N-gram是最早的语言模型，基于一个简单假设：下一个词只依赖于前面n-1个词。

条件概率计算

P(w_n | w_1, w_2, ..., w_{n-1}) ≈ P(w_n | w_{n-N+1}, ..., w_{n-1})

常见的N-gram类型

Unigram（1-gram）：只考虑当前词，忽略上下文
Bigram（2-gram）：考虑前一个词
Trigram（3-gram）：考虑前两个词
4-gram、5-gram：更长的上下文

N-gram的优缺点

优点：原理简单，训练速度快，对硬件要求低
缺点：数据稀疏，上下文有限，泛化能力弱

Word2Vec突破

2013年，Google的Mikolov等人提出了Word2Vec，让词向量技术真正走向实用。

两种架构

CBOW（连续词袋）

根据上下文词预测中心词。适合小数据集，训练速度快。

Skip-gram

根据中心词预测上下文词。适合大数据集，对低频词效果更好。

惊人的语义能力

Word2Vec发现了词向量中的语义关系：

经典示例

vec("King") - vec("Man") + vec("Woman") ≈ vec("Queen")

02神经语言模型

从静态词向量到上下文相关的表示，神经语言模型的发展带来了NLP领域的范式转变。ELMo、BERT、GPT等模型的出现，开创了预训练语言模型时代。

从静态到动态

Word2Vec和GloVe的词向量是静态的——每个词只有一个固定的向量表示。但同一个词在不同上下文中含义不同：

"我去了银行存钱" - 银行指金融机构
"他坐在河岸的银行边" - 银行指河岸

ELMo：上下文词向量

2018年，Allen AI提出ELMo（Embeddings from Language Models），首次实现了真正的上下文相关词向量。

双向LSTM：分别从左到右和从右到左编码
多层表示：不同层捕捉不同层次的语言特征
加权融合：根据任务学习每层的权重

BERT革命

Google在2018年底发布BERT（Bidirectional Encoder Representations from Transformers），彻底改变了NLP领域。

核心创新

掩码语言模型（MLM）

随机遮盖15%的词，让模型预测。这样模型可以利用双向上下文。

下一句预测（NSP）

判断两个句子是否连续，学习句子间的关系。

模型规模

模型	层数	隐藏维度	参数量
BERT-Base	12	768	1.1亿
BERT-Large	24	1024	3.4亿

GPT：自回归生成

OpenAI的GPT选择了不同的路线：使用单向的自回归生成。

GPT-1（2018.6）：1.17亿参数，证明了预训练+微调的有效性
GPT-2（2019.2）：15亿参数，展示了零样本学习能力
GPT-3（2020.6）：1750亿参数，涌现出Few-shot能力

03预训练时代

2018年开始的预训练时代彻底改变了NLP的研究范式。通过在大规模数据上进行预训练，再用少量标注数据微调，模型能够在各种任务上取得突破性表现。

范式转变

在预训练时代之前，NLP模型通常从头开始训练，需要大量标注数据。预训练范式带来了根本改变：

之前：收集标注数据 → 设计模型 → 训练
之后：大规模预训练 → 少量标注微调 → 部署

自监督学习

自监督学习是一种特殊的无监督学习，它从数据本身自动生成标签：

预测下一个词
预测被遮盖的词
判断句子是否连续

预训练任务

掩码语言模型（MLM）

BERT使用，随机遮盖15%的Token，预测原始词

因果语言模型（CLM）

GPT使用，自回归预测下一个词

微调范式

预训练：在大规模数据上学习通用表示
添加任务头：在模型顶部添加任务特定层
微调：在下游任务数据上训练全部参数

模型生态

编码器模型：BERT、RoBERTa、ALBERT
解码器模型：GPT系列、LLaMA
编码器-解码器：T5、BART

04大模型时代

2020年GPT-3的发布标志着大模型时代的开始。规模带来了质变——当模型参数达到千亿级别，涌现出了前所未有的能力。从实验室到大众，从专业工具到通用助手，大模型正在重塑人与AI的关系。

GPT-3：范式转变

2020年6月，OpenAI发布GPT-3，1750亿参数的规模带来了惊人能力：

无需微调即可完成任务（Few-shot）
可以写代码、写诗、写文章
展现出了一定的推理能力
证明了"大力出奇迹"

规模化定律

OpenAI在2020年发表了关于规模化定律的研究，揭示了模型性能与规模的关系：

模型规模：参数量越大，性能越好
数据规模：训练数据越多，性能越好
计算量：计算量越大，性能越好

涌现能力

涌现能力是指模型规模达到一定阈值后突然出现的新能力：

上下文学习（In-Context Learning）

通过提示词中的示例快速学会新任务，无需更新参数。

链式推理（Chain-of-Thought）

能够展示推理过程，逐步解决复杂问题。

指令遵循（Instruction Following）

准确理解并执行复杂的自然语言指令。

ChatGPT时刻

2022年11月30日，ChatGPT发布，两个月用户破亿。这不仅是产品成功，更是AI发展的里程碑。

让普通人第一次直接体验AI能力
展示了AI的实用价值
引发了全球对AI的关注和讨论

竞争格局

闭源模型：OpenAI GPT-4、Anthropic Claude、Google Gemini
开源模型：Meta LLaMA、Mistral、Qwen、DeepSeek

未来展望

继续扩大规模：万亿参数甚至更大
多模态融合：统一处理文本、图像、视频
长上下文：处理整本书甚至更多
Agent：AI自主完成复杂任务

"我们正站在AI历史的转折点上，大模型带来的变革才刚刚开始。"

← 基础概念

学习路径 →