预训练方法

预训练是LLM成功的关键，通过自监督学习从海量数据中提取知识。

共 3 篇文章·阅读时间：约30分钟

01自监督学习

自监督学习通过设计预任务，让模型从无标签数据中学习表示。

核心思想

不需要人工标注标签，而是从数据本身设计"代理任务"：

BERT的MLM、GPT的CLM、ALBERT的SOP等

SimCLR、MoCo、MAE等

Casual Language Model是GPT系列采用的自回归预训练方法。

训练目标

给定前文，预测下一个token的概率：

P(x_t | x_1, x_2, ..., x_{t-1})

使用交叉熵损失：L = -Σ log P(x_t)

使用下三角注意力矩阵
每个token只能看到之前的token

适合自回归生成任务
推理效率高，可以增量生成

Masked Language Model是BERT采用的双向预训练方法。

训练目标

随机掩码15%的token，预测被掩码的词：

输入：[CLS] 我 去 [MASK] 步 [SEP]
预测：[MASK] = 跑步

现代趋势

UL2提出统一框架，GLM尝试结合两者优点。现代LLM多采用CLM（GPT架构）作为基础。

模型训练