Tokenization

Tokenization（分词）是将原始文本转换为模型可处理的数字序列的过程，是NLP流水线中的第一步也是最关键的一步。

共 3 篇文章·阅读时间：约35分钟

01BPE算法

BPE（Byte Pair Encoding）是一种基于频率的子词分词算法，广泛应用于GPT、Llama等模型。

BPE最初是一种数据压缩算法，后来被引入NLP用于分词。其核心思想是将最频繁出现的字符对合并为新的token。

BPE示例

初始词表：所有字符

训练语料："low lowest newer newer newer"

合并过程：

BPE的优点

WordPiece是Google提出的子词分词算法，被BERT、DistilBERT等模型采用。

WordPiece与BPE类似，但合并的选择标准不同。BPE基于字符对频率，而WordPiece基于语言模型似然。

选择标准

WordPiece选择合并后使语言模型困惑度提升最小的字符对：

Score = Frequency(x,y) / Frequency(x) × Frequency(y)

实质是选择使训练语料似然提升最大的合并

SentencePiece是Google开发的一种无监督文本分词器，特别适合没有显式分词需求的语言（如中文、日文）。

将文本视为原始字节序列，不需要预先进行分词或预处理。空格也被视为普通字符处理。

支持BPE、UniLM、Char等分词算法。可以在同一框架下对比不同算法的效果。

可以根据需要动态调整词表大小。支持增量训练。

SentencePiece适合的场景

代表模型