预训练方法
预训练是LLM成功的关键,通过自监督学习从海量数据中提取知识。
共 3 篇文章·阅读时间:约30分钟
01自监督学习
自监督学习通过设计预任务,让模型从无标签数据中学习表示。
自监督学习原理
核心思想
不需要人工标注标签,而是从数据本身设计"代理任务":
- 掩码预测:预测被遮挡的部分
- 对比学习:区分相似与不相似样本
- 重建:重建被破坏的输入
SSL应用
NLP领域
BERT的MLM、GPT的CLM、ALBERT的SOP等
CV领域
SimCLR、MoCo、MAE等
02因果语言模型
Casual Language Model是GPT系列采用的自回归预训练方法。
CLM原理
训练目标
给定前文,预测下一个token的概率:
P(x_t | x_1, x_2, ..., x_{t-1})使用交叉熵损失:L = -Σ log P(x_t)
CLM训练
注意力掩码
使用下三角注意力矩阵
每个token只能看到之前的token
优势
适合自回归生成任务
推理效率高,可以增量生成
03掩码语言模型
Masked Language Model是BERT采用的双向预训练方法。
MLM原理
训练目标
随机掩码15%的token,预测被掩码的词:
输入:[CLS] 我 去 [MASK] 步 [SEP] 预测:[MASK] = 跑步
CLM vs MLM
| 特性 | CLM | MLM |
|---|---|---|
| 注意力 | 单向 | 双向 |
| 适用任务 | 生成任务 | 理解任务 |
| 代表模型 | GPT系列 | BERT系列 |
现代趋势
UL2提出统一框架,GLM尝试结合两者优点。 现代LLM多采用CLM(GPT架构)作为基础。