预训练技术

预训练通过在大规模无标注文本上进行自监督学习，使模型获得强大的语言理解能力，是现代NLP的基石。

共 3 篇文章·阅读时间：约40分钟

01掩码语言模型

掩码语言模型（Masked Language Model, MLM）通过预测被掩码的词来学习语言表示，是BERT等模型的核心预训练任务。

MLM原理

MLM将输入文本中一定比例的词替换为特殊符号 [MASK]，然后让模型预测被掩码的词。

训练示例

原句："The cat sat on the mat"

掩码后："The cat [MASK] on the mat"

目标：预测 [MASK] = "sat"

BERT的MLM

掩码策略

BERT使用15%的词进行掩码，其中：
- 80%替换为 [MASK]
- 10%替换为随机词
- 10%保持不变
这样可以让模型学习处理各种情况。

双向编码

MLM允许模型同时看到上下文（左侧和右侧），因此称为"双向"编码器。

代表模型

BERT、RoBERTa、ALBERT、ELECTRA等。适合理解类任务（分类、问答、命名实体识别）。

NSP任务

BERT还使用了下一句预测（Next Sentence Prediction）任务，帮助模型理解句子间关系。后来发现NSP任务效果有限， RoBERTa等模型去掉了NSP，只使用MLM。

02自回归预训练

自回归（Autoregressive）预训练通过预测下一个词来学习语言表示，是GPT系列模型的核心。

自回归原理

自回归模型从左到右逐词生成，每个词的预测只依赖前面的词（因果掩码）。

训练目标

L = - Σ log P(w_t | w₁, ..., w_t-1)

最大化每个词在给定前文的条件概率的对数似然。

GPT系列

GPT-1 (2018)

首次提出"预训练+微调"范式，使用Transformer解码器。
开创了大语言模型的先河。

GPT-2 (2019)

放大模型规模（最大15亿参数），展示在海量WebText数据上的能力。
提出"语言模型是大模型多任务的通用解决方案"的观点。

GPT-3 (2020)

1750亿参数，展示了强大的上下文学习（In-Context Learning）能力。
无需梯度更新，仅通过prompt即可完成任务。

GPT-4 (2023)

多模态能力，支持图像输入。
在各种专业和学术基准上达到人类水平。

自回归 vs MLM

自回归：单向、生成式、适合文本生成
MLM：双向、理解式、适合理解任务
最新趋势：混合两者，如UL2、GLM等

03对比学习

对比学习通过拉近相似样本、推远不相似样本来学习表示，是自监督学习的重要范式。

对比学习原理

对比学习的核心是学习一个编码器，使得相似的样本在向量空间中距离近，不相似的样本距离远。

对比损失 (InfoNCE)

L = - log exp(sim(q, k+)/Σ exp(sim(q, k)))

其中 q 是查询，k+ 是正样本（相似），k 是负样本（不相似）。
目标是让 q 与 k+ 的相似度高于 q 与任何 k 的相似度。

应用场景

SimCSE

使用Dropout作为数据增强，在BERT之上学习句子表示。简单的设计但效果很好。

SimCLR

视觉领域的对比学习代表。
通过裁剪、翻转、颜色变换等增强图片。

CLIP

图文对比学习，将图像和文本编码到同一空间。
支持零样本图像分类和图文检索。

Sentence Embedding优化

对比学习被广泛用于改进句嵌入质量。
通过构造正负样本对，学习更好的语义表示。

对比学习的关键

数据增强：构造多样化的正负样本
负样本选择：困难负样本可以提升效果
温度系数：控制分布锐度
大批量训练：更多负样本通常更好

← Embedding 嵌入

核心技术 →