RAG 完全消除了 LLM 中的幻觉。
检索可以减少事实查询中的错误结果,但无法完全消除。如果检索器获取了不相关的文档,或者模型忽略了上下文,错误结果仍然会出现。RAG 将问题从知识缺口转移到了检索质量上。
上下文检索按需提取外部信息,而参数记忆则存储训练过程中嵌入到模型权重中的知识。两者都影响着大型语言模型回答问题的方式,但它们在灵活性、准确性和可更新性方面存在显著差异。理解它们的权衡取舍有助于解释为什么现代人工智能系统通常会结合这两种方法。
一种方法是,LLM 在推理时获取相关的外部信息,使其响应基于最新的或专门的知识。
通过预训练和微调,将知识直接编码到语言模型的数十亿个参数中。
| 功能 | 上下文检索 | LLM 中的参数记忆 |
|---|---|---|
| 知识存储位置 | 外部向量数据库或文档存储 | 编码在模型权重(参数)中 |
| 更新方法 | 在索引中添加或修改文档 | 重新训练或微调模型 |
| 延迟影响 | 增加检索开销(通常为 50-200 毫秒) | 模型推理之外没有额外的延迟 |
| 幻觉风险 | 检索准确率较低 | 冷门或近期事实的权重更高 |
| 知识的可扩展性 | 可扩展性随数据库规模而变化,几乎不受限制。 | 受参数数量和训练数据的限制 |
| 更新成本 | 低(仅存储和索引成本) | 非常高(GPU 使用时间、数据准备) |
| 来源归属 | 能够引用确切的段落和文件 | 无法指出具体的培训来源 |
| 最佳用例 | 特定领域、频繁变化的数据 | 一般推理能力、语言流畅性、常识 |
上下文检索通过索引文档并在查询时进行搜索来动态构建知识。模型本身保持不变,但随着文档集的扩展,其有效知识也会随之增长。参数化记忆则相反:知识在训练过程中被压缩到权重更新中,因此模型内部存储了所有信息。这种根本性的差异影响着从成本到准确率的方方面面。
检索系统在处理事实性问题时往往较少出现错误,因为模型可以依赖实际的源文本,而不是根据模式进行猜测。然而,如果检索器检索到无关文档,模型仍然可能给出错误的答案。参数化记忆更容易出现错误,尤其是在处理小众主题或近期事件时,因为模型必须从压缩的表示中重建事实。
维护最新的参数化模型非常繁琐。添加新信息通常意味着需要对模型进行微调,这需要精心整理的数据集、计算时间和仔细的评估。上下文检索完全避免了这些问题,它允许您在索引中自由地替换文档。例如,新闻机构可以通过检索的方式向其聊天机器人提供当天的头条新闻,而无需修改模型权重。
参数化记忆需要前期在训练基础设施上投入大量资金,但其优势在于能够以低成本实现大规模推理。检索式模型则将成本转移到维护向量数据库和处理略高的查询延迟上。对于初创公司而言,检索式模型通常是务实的选择,因为它避免了基础模型提供商所承担的数百万美元的训练成本。
同一个基础模型可以通过检索服务于截然不同的领域,因为只需更换文档索引即可。今天需要法律助手,明天需要医疗助手?只需更改检索语料库即可。参数化记忆将专业化特性嵌入模型本身,这也是为什么会有像 BloombergGPT 这样的领域特定模型存在的原因,但要将它们应用于新的领域则需要重新训练。
如今大多数生产系统都将两者融合在一起。检索负责处理事实依据和专有数据,而参数化记忆则提供语言流畅性、推理能力和通用知识,从而使响应连贯一致。像 LangChain 和 LlamaIndex 这样的框架可以轻松地将检索功能叠加到任何基础模型之上,将参数化知识视为基线,将检索功能视为增强功能。
RAG 完全消除了 LLM 中的幻觉。
检索可以减少事实查询中的错误结果,但无法完全消除。如果检索器获取了不相关的文档,或者模型忽略了上下文,错误结果仍然会出现。RAG 将问题从知识缺口转移到了检索质量上。
较大的模型能更准确地记住更多事实。
从某种意义上说,更大的模型存储了更多知识,但它们也更容易产生虚假信息。研究表明,即使是 GPT-4 也会捏造引用和统计数据,尤其是在训练数据中代表性不足的主题上。
参数化记忆和参数化检索是相互竞争的方法。
它们是互补的。现代人工智能系统几乎总是将两者结合起来,利用参数化知识进行推理和语言流畅性训练,同时利用检索技术进行事实核查和专有数据处理。
微调能够可靠地教会模型新的知识。
微调在教授风格和格式方面比灌输新知识更有效。模型往往无法始终如一地回忆起通过微调学习到的事实,研究人员将这种现象称为“近因诅咒”或“灾难性遗忘”。
矢量数据库能够理解文本的含义。
向量数据库存储数值嵌入并执行相似性搜索。它们不理解语义;它们只是找到数学上接近的向量。语义来源于创建这些向量的嵌入模型。
当您的数据频繁变化、需要引用来源,或者需要处理模型训练集中未包含的专有或专业知识时,请选择上下文检索。对于一般推理、对话流畅性以及低延迟比绝对事实准确性更重要的场景,则应依赖参数记忆。实际上,最强大的系统会将两者结合起来,利用上下文检索来获取事实,并利用参数记忆来处理其他所有情况。
人工智能质量检测利用机器学习模型大规模标记低质量或人工智能生成的内容,而人工审核则依靠训练有素的编辑通过判断和上下文来评估内容质量。每种方法各有优势,许多组织现在都将两者结合起来以获得最佳效果。
人工智能流程中的迭代检索通过多次搜索和推理循环来优化结果,而一次性检索系统则只需一次遍历即可获取信息。迭代方法擅长处理复杂的多跳查询,而一次性方法则优先考虑速度和简洁性,适用于简单的查询。
人工智能伴侣是旨在模拟对话、情感支持和临场感的数字系统,而人类友谊则建立在共同的生活经验、信任和情感互惠之上。本文将对比探讨这两种连接方式如何在日益数字化的世界中塑造沟通、情感支持、孤独感和社会行为。
人工智能计算产生的排放主要来自训练大型模型的高能耗GPU集群,而传统云的排放则来自运行日常工作负载的通用数据中心。人工智能工作负载的单次任务耗电量远高于传统云,但传统云的运行规模要大得多。
现代数字环境需要强大的防御机制,但其底层方法却截然不同,威胁、欺诈或异常情况的检测方式也大相径庭。基于规则的系统依赖于严格的预配置条件来标记已知威胁,而人工智能模型则通过分析行为来发现不常见的异常情况。在两者之间做出选择意味着需要在绝对确定性和适应性灵活性之间取得平衡。