# Normalization and pre-tokenization

标准化和预标记化

在我们更深入地研究与 Transformer 模型(字节对编码 Byte-Pair Encoding [BPE]、WordPiece 和 Unigram)一起使用的三种最常见的子词标记化算法之前,我们将首先看一下每个标记器 tokenizer 应用于文本的预处理。以下是 tokenization pipeline 标记化管道 中步骤的高级概述:

1666792487881

在将文本拆分为子标记之前(根据其模型),分词器执行两个步骤: normalization 和 pre-tokenization.

# Normalization

标准化步骤涉及一些常规清理,例如删除不必要的空格、小写和 / 或删除重音符号。如果你熟悉 Unicode normalization(例如 NFC 或 NFKC),这也是 tokenizer 可能应用的东西。