基于规则的标记化方法已经过时,不再用于现代人工智能。
基于规则的分词器在生产环境的自然语言处理流程中仍然很常见,尤其是在句子分割、规范化和语言检测等预处理步骤中。许多现代系统将基于规则的方法和数据驱动的方法结合起来,而不是用其中一种方法取代另一种。
数据驱动型分词利用统计或神经网络方法从大型文本语料库中学习分割规则,而基于规则的分词则依赖于人工构建的语言模式和词典。两种方法都能将文本分割成有意义的单元,但在灵活性、准确性和计算需求方面却存在显著差异。
一种通过分析大型文本数据集中的模式来自动发现词元边界的机器学习方法。
一种使用预定义的语言规则、正则表达式和精心整理的单词列表来分割文本的传统方法。
| 功能 | 数据驱动的标记化 | 基于规则的标记化 |
|---|---|---|
| 方法 | 利用统计或神经网络方法从大型文本语料库中学习 | 使用手工编写的规则、正则表达式模式和字典 |
| 需要培训 | 是的,需要大量的带注释或原始文本数据。 | 不,规则是由开发人员手动编写的。 |
| 处理未知词语 | 将生僻词拆分成已知的子词单元 | 经常失败或需要手动更新词典 |
| 可解释性 | 较低,因为学习到的模式嵌入在模型权重中。 | 高度透明,每条规则都可查阅和审核。 |
| 对新语言的适应能力 | 易于在新语料库上进行重新训练 | 需要从头开始构建新的规则集。 |
| 计算成本 | 训练期间速度更快,推理速度也更快。 | 总体配置低,对硬件要求不高 |
| 常用算法 | BPE、WordPiece、Unigram LM、SentencePiece | 正则表达式分割、词缀去除、字典查找 |
| 使用者 | GPT、BERT、RoBERTa、T5 和大多数现代 LLM | NLTK、spaCy规则管道、传统NLP系统 |
数据驱动型分词器分析数百万个句子中的频率模式,以确定词元之间的界限。例如,BPE 从单个字符开始,反复合并出现频率最高的相邻字符对,直到达到目标词汇量。相比之下,基于规则的分词器则根据预定义的词法表,应用一系列固定的操作,例如按空格分割词元、移除标点符号或去除“-ing”和“-ed”等后缀。
数据驱动方法的最大优势之一在于能够优雅地处理模型从未见过的词汇。例如,像“pneumonoultramicroscopicsilicovolcanoconiosis”(尘肺病)这样罕见的医学术语会被拆分成模型已经理解的子词。而基于规则的系统通常会遇到这类词汇,要么将其保留为一个过大的词元,要么直接丢弃,除非有人手动将其添加到词典中。
基于规则的分词器在透明度方面更胜一筹。开发者可以打开规则文件,详细了解文本的分割方式,并将任何意外输出追溯到特定的模式。而数据驱动的分词器则更像黑盒,相同的输入总是产生相同的输出,但要解释为什么选择特定的分割方式,则需要检查训练统计数据或模型内部结构。
训练数据驱动型分词器需要大量的计算和存储资源,通常需要处理数十GB的文本才能构建高质量的词汇表。训练完成后,推理速度很快,分词器文件也很小。基于规则的分词器几乎不需要任何资源即可构建或运行,因此对于低延迟系统、嵌入式设备或缺乏训练基础设施的项目来说极具吸引力。
数据驱动的方法只需在新语料库上重新训练,就能自然地扩展到新的语言,这就是为什么像 XLM-Roberta 这样的多语言模型可以用一个分词器覆盖数十种语言。而基于规则的系统则需要针对每种新语言进行语言学方面的专业知识,因为词缀规则、字符类和词表都必须由精通词法的专家手工编写。
对于现代自然语言处理任务,在涉及噪声文本、社交媒体或代码的基准测试中,数据驱动的分词器始终优于基于规则的分词器。而基于规则的分词器在结构良好的领域(例如法律文件或正式写作)仍然占有一席之地,因为在这些领域,可预测的分割和易于理解的规则比处理边界情况更为重要。
基于规则的标记化方法已经过时,不再用于现代人工智能。
基于规则的分词器在生产环境的自然语言处理流程中仍然很常见,尤其是在句子分割、规范化和语言检测等预处理步骤中。许多现代系统将基于规则的方法和数据驱动的方法结合起来,而不是用其中一种方法取代另一种。
数据驱动的分词方法总是比基于规则的方法产生更好的结果。
质量很大程度上取决于训练语料库和任务。训练不足的数据驱动型分词器性能可能不如精心调优的基于规则的分词器,尤其是在特定领域文本上,因为训练数据与目标分布不匹配。
分词就是按空格分割文本。
实际应用中的分词器能够处理标点符号、缩写、多词短语、表情符号和子词组。简单的空格分割无法处理分词器旨在解决的大部分复杂问题。
数据驱动型分词器一旦训练完成,就无需更新。
随着语言的演变、新俚语的出现以及特定领域术语的涌现,词汇量也会随之发生变化。许多团队会定期重新训练或扩展其分词器,以适应不断变化的文本分布。
所有现代语言模型都使用相同的分词器。
不同的模型系列使用不同的分词方案。GPT 模型使用 BPE,BERT 使用 WordPiece,而 T5 使用 SentencePiece。这些选择会以可衡量的方式影响词汇量、词元数量和后续性能。
构建需要处理多样化词汇、多种语言或包含噪声的真实世界文本的现代自然语言处理 (NLP) 或语言语言记忆 (LLM) 系统时,请选择数据驱动的分词方法。如果您需要完全透明、计算量最小,或者您的工作领域较为狭窄,且手工编写的规则已经能够很好地捕捉语言特征,则请选择基于规则的分词方法。
人工智能质量检测利用机器学习模型大规模标记低质量或人工智能生成的内容,而人工审核则依靠训练有素的编辑通过判断和上下文来评估内容质量。每种方法各有优势,许多组织现在都将两者结合起来以获得最佳效果。
人工智能流程中的迭代检索通过多次搜索和推理循环来优化结果,而一次性检索系统则只需一次遍历即可获取信息。迭代方法擅长处理复杂的多跳查询,而一次性方法则优先考虑速度和简洁性,适用于简单的查询。
人工智能伴侣是旨在模拟对话、情感支持和临场感的数字系统,而人类友谊则建立在共同的生活经验、信任和情感互惠之上。本文将对比探讨这两种连接方式如何在日益数字化的世界中塑造沟通、情感支持、孤独感和社会行为。
人工智能计算产生的排放主要来自训练大型模型的高能耗GPU集群,而传统云的排放则来自运行日常工作负载的通用数据中心。人工智能工作负载的单次任务耗电量远高于传统云,但传统云的运行规模要大得多。
现代数字环境需要强大的防御机制,但其底层方法却截然不同,威胁、欺诈或异常情况的检测方式也大相径庭。基于规则的系统依赖于严格的预配置条件来标记已知威胁,而人工智能模型则通过分析行为来发现不常见的异常情况。在两者之间做出选择意味着需要在绝对确定性和适应性灵活性之间取得平衡。