掩码语言模型

BERT的预训练核心

概述

掩码语言模型(Masked Language Model, MLM)是一种预训练方法,随机遮蔽输入中的部分token,让模型预测被遮蔽的内容。这是BERT等双向模型的核心训练目标。

MLM流程

# 原始句子
"The cat sat on the mat"
# 随机遮蔽15%的token
"The [MASK] sat on the [MASK]"
# 模型预测
预测: "cat", "mat"

遮蔽策略

BERT对选中的15%token采用以下策略:

80%替换为[MASK] token
10%替换为随机token
10%保持不变
----