掩码语言模型
BERT的预训练核心
概述
掩码语言模型(Masked Language Model, MLM)是一种预训练方法,随机遮蔽输入中的部分token,让模型预测被遮蔽的内容。这是BERT等双向模型的核心训练目标。
MLM流程
# 原始句子
"The cat sat on the mat"
# 随机遮蔽15%的token
"The [MASK] sat on the [MASK]"
# 模型预测
预测: "cat", "mat"
遮蔽策略
BERT对选中的15%token采用以下策略:
80%替换为[MASK] token
10%替换为随机token
10%保持不变
----