分词器只是简单的字符串分割,不会影响模型智能。
分词器设计深刻影响着模型的学习内容和推理方式。GPT-4 数学能力的提升部分源于更优的数字分词。糟糕的分词会将逻辑单元割裂,人为地增加某些模式的学习难度。
分词器设计和原始文本处理代表了为 AI 系统准备文本的两种截然不同的方法,分词器将语言分解成离散的单元,而原始处理则保留原始字符序列供模型使用。
将文本分割成有意义的子词单元,以便进行神经网络处理的架构方法。
直接进行字符级或字节级文本读取,无需显式地将其分割成预定义的单元。
| 功能 | 分词器设计 | 原始文本处理 |
|---|---|---|
| 基本单元 | 子词标记(词、片段、字节) | 单个字符或原始字节 |
| 词汇量 | 固定(通常为 32K-200K 个代币) | 实际上没有限制(Unicode 字符集包含超过 149,000 个字符) |
| 词汇超出范围的处理 | 需要特殊令牌或备用策略 | 这种情况永远不会发生——每个字符/字节都有效 |
| 序列长度效率 | 精简(1 个词元 ≈ 0.75 个词) | 扩展型(比分词后的长度长 5-10 倍) |
| 多语言支持 | 不均衡——有些语言的标记化效率低下 | 统一——所有语言均采用相同处理方式 |
| 计算开销 | 预处理:分词步骤;推理:较短序列 | 无需预处理;推断:更长的序列 |
| 典型应用案例 | 大型语言模型(GPT、LLaMA、Claude) | 专用架构,鲁棒性研究 |
分词器设计在人类可读文本和数值表示之间引入了一个显式的转换层。当你输入“hello”时,分词器会将其映射到特定的整数 ID——例如 GPT-2 词汇表中的 [15496, 11]。而原始文本处理则完全跳过了这一间接过程,直接将 ASCII 值或 UTF-8 字节输入到模型中。这种架构上的差异会影响到后续的每一个决策,从模型如何处理拼写错误到它们对 Unicode 规范化特性的敏感度。
子词分词器在处理罕见词时表现出色,能够将“antidisestablishmentarianism”(反政教分离主义)分解成常见的词块。然而,它们在处理真正新颖的输入时——例如新兴俚语、罕见名称或拼写错误——却常常束手无策,有时甚至会产生奇怪的词符序列。原始字符处理在表示有效性方面将拼写错误的“teh”与“the”视为相同,尽管模型必须从上下文中学习它们之间的关系。这使得字符级模型本质上对对抗性拼写错误更具鲁棒性,但也需要更多的训练数据来学习组合模式。
效率差距十分显著。一个典型的英文句子可能被分解成 15 个词元或 80 个字符。对于注意力机制复杂度为二次方的 Transformer 架构而言,序列长度的这 5 倍差异意味着计算量要增加 25 倍。近年来出现的创新——线性注意力机制、状态空间模型和硬件感知架构——正在缩小这一差距。然而,对于运行基于注意力机制模型的标准 GPU 集群而言,分词仍然是处理长文档的实用选择。
分词器设计无意中编码了语言差异。英语平均每个字符约 0.2 个词元;泰语或缅甸语则可能超过 1.0 个词元,这意味着处理相同内容的成本更高。原始字节或字符模型完全规避了这种差异——无论语言如何,字节就是字节。这激发了越来越多的研究兴趣,尤其是在分词质量往往滞后的低资源语言领域。
词元边界可能成为偶然的学习信号。模型有时会利用数字逐位分词的特性来简化算术运算,或者利用代码缩进遵循可预测的词元模式。原始处理迫使模型从头开始发现这种结构,这可能导致更具泛化的表征,但初始收敛速度较慢。一些研究人员认为,这使得字符模型成为更“诚实”的学习者,更不容易受到分词器特有的影响。
分词器只是简单的字符串分割,不会影响模型智能。
分词器设计深刻影响着模型的学习内容和推理方式。GPT-4 数学能力的提升部分源于更优的数字分词。糟糕的分词会将逻辑单元割裂,人为地增加某些模式的学习难度。
角色级模型速度太慢,不适用于实际应用。
虽然基于注意力机制的Transformer模型过去确实存在这个问题,但像Mamba这样的新型架构以及各种状态空间模型能够更高效地处理长序列。ByT5在2022年通过纯字节级处理展现出了极具竞争力的下游性能。
更大的分词器词汇表总是更好。
过大的词汇表会增加嵌入矩阵的内存占用,并可能导致常用词被不必要地分割。最佳词汇表大小需要在表示粒度和模型容量之间取得平衡,对于大多数应用而言,通常介于 32K 到 100K 之间。
原始文本处理意味着模型能够像人类一样“自然地”理解文本。
这两种方法都是人为构建的,与人类语言处理相去甚远。人类也不是逐字节地阅读文本——我们会利用数十年来积累的语言学和世界知识。“自然性”论点对这两种范式都具有误导性。
标记化是一个已经解决的问题,并且有成熟的最佳实践。
活跃的研究不断挑战着既有假设。诸如一元词法分词、学习字节级编码以及近期关于可微分词法的研究等方法表明,该领域仍有待探索。每个主要模型的发布通常都会对分词策略进行试验。
对于生产环境中的大型语言模型,如果计算效率和成熟的工具至关重要,则应选择分词器设计。而当需要构建适用于多语言环境的健壮系统、处理嘈杂的真实世界文本或研究独立于预处理工件的基本模型能力时,则应选择原始文本处理。
人工智能质量检测利用机器学习模型大规模标记低质量或人工智能生成的内容,而人工审核则依靠训练有素的编辑通过判断和上下文来评估内容质量。每种方法各有优势,许多组织现在都将两者结合起来以获得最佳效果。
人工智能流程中的迭代检索通过多次搜索和推理循环来优化结果,而一次性检索系统则只需一次遍历即可获取信息。迭代方法擅长处理复杂的多跳查询,而一次性方法则优先考虑速度和简洁性,适用于简单的查询。
人工智能伴侣是旨在模拟对话、情感支持和临场感的数字系统,而人类友谊则建立在共同的生活经验、信任和情感互惠之上。本文将对比探讨这两种连接方式如何在日益数字化的世界中塑造沟通、情感支持、孤独感和社会行为。
人工智能计算产生的排放主要来自训练大型模型的高能耗GPU集群,而传统云的排放则来自运行日常工作负载的通用数据中心。人工智能工作负载的单次任务耗电量远高于传统云,但传统云的运行规模要大得多。
现代数字环境需要强大的防御机制,但其底层方法却截然不同,威胁、欺诈或异常情况的检测方式也大相径庭。基于规则的系统依赖于严格的预配置条件来标记已知威胁,而人工智能模型则通过分析行为来发现不常见的异常情况。在两者之间做出选择意味着需要在绝对确定性和适应性灵活性之间取得平衡。