预训练方法

预训练是LLM成功的关键,通过自监督学习从海量数据中提取知识。

共 3 篇文章·阅读时间:约30分钟

01自监督学习

自监督学习通过设计预任务,让模型从无标签数据中学习表示。

自监督学习原理

核心思想

不需要人工标注标签,而是从数据本身设计"代理任务":

  • 掩码预测:预测被遮挡的部分
  • 对比学习:区分相似与不相似样本
  • 重建:重建被破坏的输入

SSL应用

NLP领域

BERT的MLM、GPT的CLM、ALBERT的SOP等

CV领域

SimCLR、MoCo、MAE等

02因果语言模型

Casual Language Model是GPT系列采用的自回归预训练方法。

CLM原理

训练目标

给定前文,预测下一个token的概率:

P(x_t | x_1, x_2, ..., x_{t-1})

使用交叉熵损失:L = -Σ log P(x_t)

CLM训练

注意力掩码

使用下三角注意力矩阵
每个token只能看到之前的token

优势

适合自回归生成任务
推理效率高,可以增量生成

03掩码语言模型

Masked Language Model是BERT采用的双向预训练方法。

MLM原理

训练目标

随机掩码15%的token,预测被掩码的词:

输入:[CLS] 我 去 [MASK] 步 [SEP]
预测:[MASK] = 跑步

CLM vs MLM

特性CLMMLM
注意力单向双向
适用任务生成任务理解任务
代表模型GPT系列BERT系列

现代趋势

UL2提出统一框架,GLM尝试结合两者优点。 现代LLM多采用CLM(GPT架构)作为基础。

----