发展历程
语言模型的发展是一部从统计方法到深度学习的演进史。从简单的N-gram统计到神经网络语言模型,再到今天的大模型时代,每一步都为AI的发展奠定了基础。
01早期语言模型
语言模型的发展是一部从统计方法到深度学习的演进史。从简单的N-gram统计到神经网络语言模型,再到词向量的突破,每一步都为今天的大模型奠定了基础。
语言模型的起源
语言模型的核心任务是预测下一个词的概率。这个问题看似简单,却蕴含着对语言的深刻理解。
为什么需要语言模型
语言模型在自然语言处理中有广泛应用:
- 语音识别:判断哪个词序列更可能
- 机器翻译:生成流畅的目标语言
- 拼写纠错:预测正确的拼写
- 输入法:预测下一个词
发展时间线
N-gram模型
基本原理
N-gram是最早的语言模型,基于一个简单假设:下一个词只依赖于前面n-1个词。
条件概率计算
P(w_n | w_1, w_2, ..., w_{n-1}) ≈ P(w_n | w_{n-N+1}, ..., w_{n-1})
常见的N-gram类型
- Unigram(1-gram):只考虑当前词,忽略上下文
- Bigram(2-gram):考虑前一个词
- Trigram(3-gram):考虑前两个词
- 4-gram、5-gram:更长的上下文
N-gram的优缺点
- 优点:原理简单,训练速度快,对硬件要求低
- 缺点:数据稀疏,上下文有限,泛化能力弱
Word2Vec突破
2013年,Google的Mikolov等人提出了Word2Vec,让词向量技术真正走向实用。
两种架构
CBOW(连续词袋)
根据上下文词预测中心词。适合小数据集,训练速度快。
Skip-gram
根据中心词预测上下文词。适合大数据集,对低频词效果更好。
惊人的语义能力
Word2Vec发现了词向量中的语义关系:
经典示例
vec("King") - vec("Man") + vec("Woman") ≈ vec("Queen")
02神经语言模型
从静态词向量到上下文相关的表示,神经语言模型的发展带来了NLP领域的范式转变。ELMo、BERT、GPT等模型的出现,开创了预训练语言模型时代。
从静态到动态
Word2Vec和GloVe的词向量是静态的——每个词只有一个固定的向量表示。但同一个词在不同上下文中含义不同:
- "我去了银行存钱" - 银行指金融机构
- "他坐在河岸的银行边" - 银行指河岸
ELMo:上下文词向量
2018年,Allen AI提出ELMo(Embeddings from Language Models),首次实现了真正的上下文相关词向量。
- 双向LSTM:分别从左到右和从右到左编码
- 多层表示:不同层捕捉不同层次的语言特征
- 加权融合:根据任务学习每层的权重
BERT革命
Google在2018年底发布BERT(Bidirectional Encoder Representations from Transformers),彻底改变了NLP领域。
核心创新
掩码语言模型(MLM)
随机遮盖15%的词,让模型预测。这样模型可以利用双向上下文。
下一句预测(NSP)
判断两个句子是否连续,学习句子间的关系。
模型规模
| 模型 | 层数 | 隐藏维度 | 参数量 |
|---|---|---|---|
| BERT-Base | 12 | 768 | 1.1亿 |
| BERT-Large | 24 | 1024 | 3.4亿 |
GPT:自回归生成
OpenAI的GPT选择了不同的路线:使用单向的自回归生成。
- GPT-1(2018.6):1.17亿参数,证明了预训练+微调的有效性
- GPT-2(2019.2):15亿参数,展示了零样本学习能力
- GPT-3(2020.6):1750亿参数,涌现出Few-shot能力
03预训练时代
2018年开始的预训练时代彻底改变了NLP的研究范式。通过在大规模数据上进行预训练,再用少量标注数据微调,模型能够在各种任务上取得突破性表现。
范式转变
在预训练时代之前,NLP模型通常从头开始训练,需要大量标注数据。预训练范式带来了根本改变:
- 之前:收集标注数据 → 设计模型 → 训练
- 之后:大规模预训练 → 少量标注微调 → 部署
自监督学习
自监督学习是一种特殊的无监督学习,它从数据本身自动生成标签:
- 预测下一个词
- 预测被遮盖的词
- 判断句子是否连续
预训练任务
掩码语言模型(MLM)
BERT使用,随机遮盖15%的Token,预测原始词
因果语言模型(CLM)
GPT使用,自回归预测下一个词
微调范式
- 预训练:在大规模数据上学习通用表示
- 添加任务头:在模型顶部添加任务特定层
- 微调:在下游任务数据上训练全部参数
模型生态
- 编码器模型:BERT、RoBERTa、ALBERT
- 解码器模型:GPT系列、LLaMA
- 编码器-解码器:T5、BART
04大模型时代
2020年GPT-3的发布标志着大模型时代的开始。规模带来了质变——当模型参数达到千亿级别,涌现出了前所未有的能力。从实验室到大众,从专业工具到通用助手,大模型正在重塑人与AI的关系。
GPT-3:范式转变
2020年6月,OpenAI发布GPT-3,1750亿参数的规模带来了惊人能力:
- 无需微调即可完成任务(Few-shot)
- 可以写代码、写诗、写文章
- 展现出了一定的推理能力
- 证明了"大力出奇迹"
规模化定律
OpenAI在2020年发表了关于规模化定律的研究,揭示了模型性能与规模的关系:
- 模型规模:参数量越大,性能越好
- 数据规模:训练数据越多,性能越好
- 计算量:计算量越大,性能越好
涌现能力
涌现能力是指模型规模达到一定阈值后突然出现的新能力:
上下文学习(In-Context Learning)
通过提示词中的示例快速学会新任务,无需更新参数。
链式推理(Chain-of-Thought)
能够展示推理过程,逐步解决复杂问题。
指令遵循(Instruction Following)
准确理解并执行复杂的自然语言指令。
ChatGPT时刻
2022年11月30日,ChatGPT发布,两个月用户破亿。这不仅是产品成功,更是AI发展的里程碑。
- 让普通人第一次直接体验AI能力
- 展示了AI的实用价值
- 引发了全球对AI的关注和讨论
竞争格局
- 闭源模型:OpenAI GPT-4、Anthropic Claude、Google Gemini
- 开源模型:Meta LLaMA、Mistral、Qwen、DeepSeek
未来展望
- 继续扩大规模:万亿参数甚至更大
- 多模态融合:统一处理文本、图像、视频
- 长上下文:处理整本书甚至更多
- Agent:AI自主完成复杂任务
"我们正站在AI历史的转折点上,大模型带来的变革才刚刚开始。"