分词器训练只是一个次要的预处理步骤,对最终模型质量影响不大。
分词器的质量直接限制了模型的学习能力。糟糕的分词会导致歧义表示、序列长度增加,甚至使模型几乎无法掌握某些语言现象。研究人员已经证明,分词器的选择会使基准测试的性能产生几个百分点的差异。
在自然语言处理中,分词器训练和模型训练从根本上来说是不同的,但又紧密相连。分词器训练创建词汇表和编码规则,使模型能够从数值数据中学习语言模式。
构建子词词汇表并学习编码规则,将文本转换为数字标记的过程。
神经网络优化过程,其中语言模型通过基于梯度的方法从分词数据中学习模式。
| 功能 | 分词器训练 | 自然语言处理中的模型训练 |
|---|---|---|
| 主要目标 | 创建子词词汇表和编码规则 | 学习语言模式和特定任务的表征 |
| 输入数据 | 原始文本语料库(通常是数TB的未标注文本) | 带有数字 ID 的标记化序列 |
| 优化方法 | 贪婪频率合并(BPE)或最大似然法(SentencePiece) | 反向传播梯度下降法 |
| 输出工件 | 词汇文件和编码/解码功能 | 训练好的神经网络权重和架构配置 |
| 计算要求 | 相对适中;单台机器的使用小时数 | 规模庞大;大型模型需要数千小时的 GPU/TPU 处理时间 |
| 可逆性 | 完全可逆;文本可以根据标记精确地重建。 | 不可逆;模型输出是预测结果,而非重建结果。 |
| 典型持续时间 | 耗时几分钟到几小时不等,具体取决于语料库的大小。 | 基础模型需要几天到几个月的时间 |
| 依赖关系 | 必须在模型训练开始前完成 | 取决于分词器是否已经训练并修复。 |
分词器训练充当人类语言和机器可读数字之间的预处理桥梁。它的任务是决定如何拆分单词、哪些序列成为特殊标记以及如何处理未知单词。另一方面,模型训练才是真正学习发生的地方——神经网络在此过程中发现语言中的统计模式,构建语义表征,并发展出生成或分类文本的能力。
分词器训练背后的算法与模型训练背后的算法截然不同。BPE 从单个字节开始,迭代地合并出现频率最高的相邻字节对,直到达到所需的词汇量。SentencePiece 则将问题视为语言建模任务,并使用期望最大化(EM)算法。两者都不涉及神经网络。模型训练则完全使用可微优化算法,通常是 Adam 或 AdamW 优化器,来处理高维损失函数。
这些流程之间的计算能力差距令人震惊。在标准硬件上,用 100GB 的文本训练一个 SentencePiece 分词器可能只需要几个小时。而用同样的文本训练 Llama 3 这样的模型则需要庞大的集群,数千个相互连接的加速器需要运行数周时间。有趣的是,分词器的训练通常只需进行一次,即可在多个模型训练过程中重复使用,这使得它在整个开发流程中成为一项相对固定的成本。
分词器选择对模型学习的内容有着微妙但强大的影响。例如,将“反政教分离主义”拆分成多个片段的分词器会迫使模型从这些片段中拼凑出意义,而保持其完整性的分词器则会将其视为一个原子概念。分词器的偏好甚至会影响公平性——分词效率低下的语言会被压缩成更长的序列,这实际上增加了模型的处理成本,有时甚至会导致性能下降。
在实践中,分词器训练通常是在项目早期一次性决定的。模型训练完成后更换分词器意味着需要从头开始重新训练所有内容,因为词元 ID 是任意的,而模型嵌入与特定的词元位置相关联。相比之下,模型训练是一个高度迭代的过程——研究人员会不断地尝试不同的架构、训练方案和微调策略。这种不对称性意味着分词器的选择会产生难以逆转的长期影响。
分词器训练只是一个次要的预处理步骤,对最终模型质量影响不大。
分词器的质量直接限制了模型的学习能力。糟糕的分词会导致歧义表示、序列长度增加,甚至使模型几乎无法掌握某些语言现象。研究人员已经证明,分词器的选择会使基准测试的性能产生几个百分点的差异。
训练模型后,您可以通过简单地重新映射标记来更换分词器。
模型嵌入与学习到的参数空间中特定位置的特定词元 ID 相关联。不同的分词器会产生完全不同的词元分布,导致预训练权重在语义上不匹配。唯一可行的办法是从头开始完全重新训练。
更大的分词器词汇表总是有利于模型性能。
虽然更大的词汇量可以缩短序列长度,但会增加嵌入矩阵的大小,并可能降低模型效率。词汇量存在一个最佳平衡点——词汇量过大会导致模型无法充分利用罕见词元;词汇量过小则会导致序列碎片化。大多数从业者认为,对于多语言模型而言,3.2万到10万个词元是最佳选择。
模型训练和分词器训练是作为同一个端到端流程的一部分同时进行的。
这些是顺序且独立的阶段。在模型训练开始之前,分词器必须完全训练并冻结,因为模型架构的嵌入层维度取决于词汇表的大小。一些近期研究探索了联合优化,但标准做法仍然是严格按顺序进行。
在一种分词器上训练的模型可以针对不同分词器的文本进行微调。
微调需要使用完全相同的分词器。如果输入的文本分词方式不同,模型会遇到从未学习过词嵌入的词元 ID,或者更糟糕的是,遇到含义完全错误但熟悉的词元 ID。这就是为什么模型发布时总是会明确指定使用哪种分词器。
分词器训练需要像模型训练一样带有标签的数据。
分词器完全基于原始的、未标注的文本进行训练。它们不需要任何标注、标签或特定任务的格式。这种无监督特性使得分词器能够在海量网络语料库上进行训练,而无需昂贵的人工标注。
当您需要为新的语言领域预处理文本,或者现有分词器无法很好地处理您的特定词汇时,请选择分词器训练。如果您的目标是构建功能强大的语言系统,则应优先考虑模型训练,并直接复用 GPT-2、BERT 或 Llama 等成熟的分词器,除非您有充分的理由进行自定义分词。
人工智能质量检测利用机器学习模型大规模标记低质量或人工智能生成的内容,而人工审核则依靠训练有素的编辑通过判断和上下文来评估内容质量。每种方法各有优势,许多组织现在都将两者结合起来以获得最佳效果。
人工智能流程中的迭代检索通过多次搜索和推理循环来优化结果,而一次性检索系统则只需一次遍历即可获取信息。迭代方法擅长处理复杂的多跳查询,而一次性方法则优先考虑速度和简洁性,适用于简单的查询。
人工智能伴侣是旨在模拟对话、情感支持和临场感的数字系统,而人类友谊则建立在共同的生活经验、信任和情感互惠之上。本文将对比探讨这两种连接方式如何在日益数字化的世界中塑造沟通、情感支持、孤独感和社会行为。
人工智能计算产生的排放主要来自训练大型模型的高能耗GPU集群,而传统云的排放则来自运行日常工作负载的通用数据中心。人工智能工作负载的单次任务耗电量远高于传统云,但传统云的运行规模要大得多。
现代数字环境需要强大的防御机制,但其底层方法却截然不同,威胁、欺诈或异常情况的检测方式也大相径庭。基于规则的系统依赖于严格的预配置条件来标记已知威胁,而人工智能模型则通过分析行为来发现不常见的异常情况。在两者之间做出选择意味着需要在绝对确定性和适应性灵活性之间取得平衡。