自然语言处理分词多语言人工智能自然语言处理人工智能机器学习文本处理

语言专用分词器与通用分词器

针对特定语言的分词器是围绕单一语言的语法和词汇设计的，以实现最高的效率，而通用分词器则采用共享的子词算法，通过一个统一的系统来处理数百种语言。

亮点

针对特定语言的分词器通常能更好地提高目标语言的词元有效性，从而直接影响模型速度和成本。
通用分词器通过创建跨语言的共享子词空间，实现跨语言迁移学习。
现代多语言模型（例如 XLM-R 和 mBERT）依赖于通用分词，因此通用分词成为研究和广泛部署的默认选择。
目前涌现出一些混合方法，它们结合了通用基函数和特定语言的优化，以兼顾两者的优势。

特定语言的分词器是什么？

针对单一语言独特的语言特征设计和优化的定制分词系统。

降低目标语言的词符数量，这意味着每个词的词符数量更少，计算开销也更低。
对于中文和日文等没有空格的文字来说，这至关重要，因为如果没有语言学知识，词语切分从根本上来说是模糊不清的。
通常会整合精心整理的词典、词法规则和手工调优的预处理流程。
除非采用复杂的混合架构，否则处理代码转换和多语言文档会很困难。
例如，Jieba 和 THULAC 用于中文，MeCab 用于日语，以及针对不同语言调整的 BPE 变体。

Universal Surgirá Tokenizers是什么？

单一分词系统，采用统一的子词方法处理多种语言的文本。

支持包括 mBERT、XLM-RoBERTa 在内的众多知名多语言模型以及具备跨语言能力的现代大型语言模型
通常采用包含 25 万个或更多词元的大型共享词汇表，并使用 BPE、WordPiece 或 Unigram 算法进行训练。
通过将不同语言中的相关词汇映射到相似或相同的词符序列，实现零样本跨语言迁移。
SentencePiece 是一种领先的实现方式，它将文本作为原始 Unicode 序列进行处理，而无需进行特定于语言的预分割。
通常会出现分词不平衡的情况，英语和其他西欧语言获得的分词效率高于形态复杂或资源匮乏的语言。

比较表

功能	特定语言的分词器	Universal Surgirá Tokenizers
主要设计目标	针对一种语言的语法和词汇进行优化	用一个系统处理多种语言
词汇结构	以语言为中心，规模通常较小且经过精心策划。	大型，跨语言共享
象征性生育	目标语言的较低水平	变量；通常每种语言的变量更高。
代码转换处理	未经修改，效果不佳	自然支持
维护费用	高；需要单独的模型和规则	降低；单一模型维持
跨语言迁移	有限的	功能强大；支持多语言学习
形态学准确性	目标语言水平高	不同语言类型之间不一致
典型用例	单语生产系统，专业自然语言处理	多语言模型、研究、全球应用

详细对比

代币化效率和有效性

针对特定语言的分词器通常会为每个词生成较少的词元，这会直接影响模型速度、内存使用量和 API 成本。一个经过良好调校的中文分词器可能会将常用词表示为单个词元，而通用系统则可能将其拆分为多个词元。不过，随着通用系统采用更大的词汇量和更复杂的训练方法，这种差距已经缩小。

处理形态复杂的语言

对于具有大量屈折变化或黏着词的语言，一刀切的方法会带来真正的挑战。例如，芬兰语中那些拥有多代后缀的词，虽然专用分词器能够将其保留为有意义的单元，但通用方法却会导致词形破碎。一些通用分词器现在加入了形态感知变体或特定语言的适配器来部分解决这个问题，但专用系统在这方面仍然具有优势。

跨语言能力

当应用程序需要处理多种语言或利用跨语言词嵌入时，通用分词器优势显著。由于不同语言之间的相关词汇通常映射到重叠的词元序列，模型可以将知识从高资源语言迁移到低资源语言。而特定语言的分词器缺乏这种内置的桥梁，除非显式地与对齐机制结合使用，但这会显著增加架构的复杂性。

部署和运营复杂性

使用特定语言的分词器运行生产系统意味着需要为每种语言维护单独的流水线、版本控制和错误处理机制。对于使用数十种语言的团队来说，这往往既繁琐又容易出错。通用分词器可以显著简化操作，但可能需要进行调优或词汇精简才能在特定语言的极端情况下表现良好。

新兴混合方法

该领域正逐渐转向折衷方案：通用分词器搭配特定语言的适配器，或按需加载特定语言子词汇表的模块化词汇表。这些方法力求在保持通用系统操作简便性的同时，兼顾专用分词器的效率优势，体现了一种务实的演进，而非非此即彼的选择。

优点与缺点

特定语言的分词器

优点

+ 更高的代币效率
+ 更高的形态学准确性
+ 针对语法规则进行了优化
+ 降低每种语言的延迟

继续

− 高昂的维护成本
− 跨语言支持不足
− 需要单独的管道
− 支持多种语言成本很高。

通用分词器

优点

+ 单一系统，适用于所有语言
+ 支持跨语言传输
+ 更简单的部署
+ 自然地支持代码切换

继续

− 较低的单语言效率
− 可能会过度分割词语
− 词汇量大，占用内存空间大。
− 可能忽略语言特有的细微差别

常见误解

神话

通用分词器在所有语言中都表现同样出色。

现实

不同语言的性能差异显著。资源匮乏且形态复杂的语言在通用系统中往往面临分词质量较差的问题，导致序列更长，模型性能也随之降低。

神话

随着现代语言学习模型（LLM）的发展，特定语言的分词器已经过时了。

现实

虽然通用分词器在研究中占据主导地位，但在需要最高效率、监管合规性或单语言应用程序的专业领域准确性的生产环境中，特定语言的系统仍然至关重要。

神话

词汇量越大，分词效果通常越好。

现实

词汇量的大小需要权衡取舍。词汇量过大会增加记忆需求，并可能损害泛化能力；而词汇量过小则会导致词语过度碎片化。最佳词汇量取决于语言和任务。

神话

分词选择对模型整体性能的影响很小。

现实

分词直接影响序列长度、计算成本以及模型接收到的语言信息。糟糕的分词可能会掩盖词法关系或增加计算成本，却无法提高输出质量。

神话

通用分词器能够原生理解其支持的所有语言。

现实

通用分词器通过统计方法处理文本，本身并不具备语言学理解能力。它们表面上的多语言能力源于训练数据的分布和子词重叠，而非任何内置的语言语法知识。

常见问题解答

什么是分词？它对人工智能模型有何重要意义？

分词是将原始文本分割成更小的单元（称为词元）的过程，这些词元可供模型处理。它位于人类语言和机器表示之间的边界，直接影响上下文窗口中可容纳的文本量、推理的成本以及模型能够轻松学习的语言模式。

哪种方法对中国人、日本人或韩国人更有效？

历史上，像Jieba、MeCab或KoNLPy这样的特定语言分词器在这些语言上的表现优于通用分词器，因为这些语言的词与词之间没有空格。然而，基于大规模多语言语料库训练的现代通用分词器已经大大缩小了这种差距，尽管专用系统在分词效率方面仍然往往更高。

“象征性生育”是什么意思？我为什么要关心这个问题？

词元数量是指表示给定文本量所需的词元数量。词元数量越高，序列越长，这会增加内存占用、计算时间和 API 成本。对于高流量应用而言，即使词元数量上的微小差异也能转化为显著的运营成本节约。

通用分词器如何处理语言之间的代码转换？

由于通用分词器使用跨多种语言训练的单一共享词汇表，因此无需切换系统即可处理混合语言文本。这使得它们天然适用于社交媒体内容、多语言文档以及说话者在句子中途切换语言的对话。

现代大型语言模型是否使用特定语言的分词器？

当代大多数大型语言模型都使用通用分词以实现可扩展性，但在法律自然语言处理、医疗文本处理和高频交易系统等专业领域，特定语言的分词器仍然存在，因为对于单一语言而言，延迟和精度足以弥补维护成本。

SentencePiece是什么？它适用于什么场景？

SentencePiece 是 Google 开发的开源分词库，它实现了 BPE 和 Unigram 分词算法。它将输入视为原始 Unicode 序列，因此具有语言无关性，易于部署到各种不同的文字系统中，这使其成为通用分词流程的基石。

为什么英语单词的词符数量通常比其他语言少？

英语的词法相对简单，因此在大多数通用分词器的训练数据中占据了重要地位。这造成了一种表示不平衡：英语单词更容易匹配完整的词元，而其他语言则更容易被拆分成更多片段。

我可以在单语言应用程序中使用通用分词器吗？

当然，很多开发者为了方便都会这样做。但是，与专用分词器相比，这样做可能会略微降低效率。对于大多数应用来说，这种权衡是可以接受的，不过高吞吐量或资源受限的系统可能仍然更倾向于使用针对特定语言优化的解决方案。

什么是像BPE这样的子词分词算法？

字节对编码及类似算法从字符入手，迭代地将最常用的字符对合并成新的词元。这样就创建了一个词汇表，它将常用词作为单个词元，同时将不常用词拆分成易于理解的片段，从而在词汇表大小和覆盖范围之间取得平衡。

对于一个新项目，我应该在这些方法中选择哪种？

除非有特殊限制，否则建议先使用通用分词器。如果您正在开发一款使用形态复杂语言的单语产品，或者分词成本占据了预算的大部分，则可以考虑使用特定语言的替代方案进行基准测试。衡量指标应包括分词效率、端到端延迟和任务准确率，而不是想当然地认为某种方法在所有方面都更胜一筹。

通用分词器能否同样出色地处理所有书写系统？

并非总是如此。虽然通用分词器理论上可以处理任何Unicode文本，但它们在训练数据丰富且词边界简单的语言上往往表现最佳。对于拼写复杂、存在双语现象或数字语料库有限的语言，分词效果可能仍然欠佳。

代币化研究的未来方向是什么？

该领域正朝着更具适应性和模块化的系统发展，包括词汇精简、特定语言路由，甚至完全绕过传统分词的无分词或字节级模型。这些方法旨在减少当前系统赋予某些语言的不公平优势。

裁决

构建高性能单语系统时，应选择特定语言的分词器，尤其是在词法复杂的语言或无空格文字中，因为分词效率会直接影响延迟和成本。而当需要支持多种语言、实现跨语言迁移或优先考虑操作简便性时，则应选择通用分词器。许多生产系统现在会根据语言层级和性能需求，将这两种方法结合起来使用。