人工智能大型语言模型检索增强生成机器学习llm-架构

LLM 中的上下文检索与参数记忆

上下文检索按需提取外部信息，而参数记忆则存储训练过程中嵌入到模型权重中的知识。两者都影响着大型语言模型回答问题的方式，但它们在灵活性、准确性和可更新性方面存在显著差异。理解它们的权衡取舍有助于解释为什么现代人工智能系统通常会结合这两种方法。

亮点

检索式记忆更新只需几分钟；参数化记忆更新则需要数周的训练时间。
参数化内存可实现零延迟知识访问；每次查询的检索时间增加 50-200 毫秒。
检索允许引用来源；参数化记忆无法将答案追溯到训练数据。
参数化内存的规模与参数成正比；检索规模与数据库大小成正比。

上下文检索是什么？

一种方法是，LLM 在推理时获取相关的外部信息，使其响应基于最新的或专门的知识。

检索增强生成（RAG）是最常见的实现方式，由 Facebook AI Research 于 2020 年推出。
它依赖于 FAISS、Pinecone 或 Weaviate 等向量数据库来存储文档嵌入，以进行相似性搜索。
检索到的上下文被注入到提示中，使模型能够引用来源并减少幻觉。
只需添加新文档即可更新知识库，无需重新训练底层模型。
它适用于冻结模型，因此对于拥有专有数据的企业部署来说，具有成本效益。

LLM 中的参数记忆是什么？

通过预训练和微调，将知识直接编码到语言模型的数十亿个参数中。

据报道，GPT-4 包含超过万亿个参数，每个参数都存储着已学习知识的片段。
参数记忆是在像 Common Crawl 这样的大型文本语料库上进行自监督训练时获得的。
由于无需外部查找即可进行一般知识查询，因此可以实现快速推理。
更新此内存需要昂贵的重新训练或微调，通常需要花费数百万美元。
由于训练数据有固定的截止日期，因此它难以处理最近发生的事件。

比较表

功能	上下文检索	LLM 中的参数记忆
知识存储位置	外部向量数据库或文档存储	编码在模型权重（参数）中
更新方法	在索引中添加或修改文档	重新训练或微调模型
延迟影响	增加检索开销（通常为 50-200 毫秒）	模型推理之外没有额外的延迟
幻觉风险	检索准确率较低	冷门或近期事实的权重更高
知识的可扩展性	可扩展性随数据库规模而变化，几乎不受限制。	受参数数量和训练数据的限制
更新成本	低（仅存储和索引成本）	非常高（GPU 使用时间、数据准备）
来源归属	能够引用确切的段落和文件	无法指出具体的培训来源
最佳用例	特定领域、频繁变化的数据	一般推理能力、语言流畅性、常识

详细对比

知识是如何获得的

上下文检索通过索引文档并在查询时进行搜索来动态构建知识。模型本身保持不变，但随着文档集的扩展，其有效知识也会随之增长。参数化记忆则相反：知识在训练过程中被压缩到权重更新中，因此模型内部存储了所有信息。这种根本性的差异影响着从成本到准确率的方方面面。

准确性和幻觉

检索系统在处理事实性问题时往往较少出现错误，因为模型可以依赖实际的源文本，而不是根据模式进行猜测。然而，如果检索器检索到无关文档，模型仍然可能给出错误的答案。参数化记忆更容易出现错误，尤其是在处理小众主题或近期事件时，因为模型必须从压缩的表示中重建事实。

新鲜度和维护

维护最新的参数化模型非常繁琐。添加新信息通常意味着需要对模型进行微调，这需要精心整理的数据集、计算时间和仔细的评估。上下文检索完全避免了这些问题，它允许您在索引中自由地替换文档。例如，新闻机构可以通过检索的方式向其聊天机器人提供当天的头条新闻，而无需修改模型权重。

成本和基础设施

参数化记忆需要前期在训练基础设施上投入大量资金，但其优势在于能够以低成本实现大规模推理。检索式模型则将成本转移到维护向量数据库和处理略高的查询延迟上。对于初创公司而言，检索式模型通常是务实的选择，因为它避免了基础模型提供商所承担的数百万美元的训练成本。

灵活性和专业化

同一个基础模型可以通过检索服务于截然不同的领域，因为只需更换文档索引即可。今天需要法律助手，明天需要医疗助手？只需更改检索语料库即可。参数化记忆将专业化特性嵌入模型本身，这也是为什么会有像 BloombergGPT 这样的领域特定模型存在的原因，但要将它们应用于新的领域则需要重新训练。

混合方法

如今大多数生产系统都将两者融合在一起。检索负责处理事实依据和专有数据，而参数化记忆则提供语言流畅性、推理能力和通用知识，从而使响应连贯一致。像 LangChain 和 LlamaIndex 这样的框架可以轻松地将检索功能叠加到任何基础模型之上，将参数化知识视为基线，将检索功能视为增强功能。

优点与缺点

上下文检索

优点

+ 易于更新
+ 引用来源
+ 减少幻觉
+ 经济高效的扩展

继续

− 增加延迟
− 检索错误
− 基础设施开销
− 受指数质量限制

参数记忆

优点

+ 快速推理
+ 无外部依赖
+ 强有力的推理
+ 概括性强

继续

− 更新成本高昂
− 知识截止限制
− 幻觉事实
− 不透明的知识来源

常见误解

神话

RAG 完全消除了 LLM 中的幻觉。

现实

检索可以减少事实查询中的错误结果，但无法完全消除。如果检索器获取了不相关的文档，或者模型忽略了上下文，错误结果仍然会出现。RAG 将问题从知识缺口转移到了检索质量上。

神话

较大的模型能更准确地记住更多事实。

现实

从某种意义上说，更大的模型存储了更多知识，但它们也更容易产生虚假信息。研究表明，即使是 GPT-4 也会捏造引用和统计数据，尤其是在训练数据中代表性不足的主题上。

神话

参数化记忆和参数化检索是相互竞争的方法。

现实

它们是互补的。现代人工智能系统几乎总是将两者结合起来，利用参数化知识进行推理和语言流畅性训练，同时利用检索技术进行事实核查和专有数据处理。

神话

微调能够可靠地教会模型新的知识。

现实

微调在教授风格和格式方面比灌输新知识更有效。模型往往无法始终如一地回忆起通过微调学习到的事实，研究人员将这种现象称为“近因诅咒”或“灾难性遗忘”。

神话

矢量数据库能够理解文本的含义。

现实

向量数据库存储数值嵌入并执行相似性搜索。它们不理解语义；它们只是找到数学上接近的向量。语义来源于创建这些向量的嵌入模型。

常见问题解答

上下文检索和参数记忆的主要区别是什么？

上下文检索在查询时从外部来源获取信息，而参数记忆则将训练过程中积累的知识存储在模型权重中。上下文检索是动态且可更新的；参数记忆是静态的，在训练过程中就已经写入模型。

如果逻辑记忆者拥有参数记忆，为什么他们还会出现幻觉？

参数化记忆将知识压缩成跨越数十亿个参数的模式，因此模型会重构答案，而不是逐字逐句地回忆。这种重构过程可能会产生听起来合情合理但实际上错误的陈述，尤其是在处理晦涩难懂的事实或训练数据稀少的主题时。

检索式记忆和参数化记忆可以同时使用吗？

没错。大多数生产环境中的语言学习应用都采用混合方法，其中模型的参数化知识负责推理和语言处理，而检索功能则提供具体事实、最新信息或专有数据。像 LangChain 这样的框架使得这种组合的实现变得非常简单。

更新参数化内存与检索参数化内存相比，成本分别是多少？

更新检索数据可能只需要花费几美元的存储和索引计算成本。而通过重新训练来更新参数化内存则可能需要花费数千到数百万美元，具体费用取决于模型规模，外加数周的工程时间。正是这种成本差距使得检索数据变得如此流行。

RAG 是否适用于所有 LLM？

是的，检索增强型生成几乎适用于任何语言模型，包括 Llama 和 Mistral 等开源模型，以及 GPT-4 和 Claude 等专有 API。模型只需遵循指令并在提示中使用检索到的上下文即可。

什么是向量数据库？为什么检索需要向量数据库？

向量数据库将文本存储为能够捕捉语义含义的数值嵌入。当您查询该数据库时，它会找到嵌入向量在数学上与您的问题相似的文档。这使得检索能够基于语义而非精确的关键词匹配，这对于自然语言查询至关重要。

模型的参数记忆容量可以达到多大？

理论上参数数量无限，但实际上受限于训练计算能力和数据量。据估计，GPT-4 拥有超过万亿个参数，而像 Llama 3 这样的开源模型也达到了 4050 亿个参数。每个参数存储的只是极小的知识片段，但总容量却非常庞大。

与单独使用参数化内存相比，检索速度是否更慢？

是的，数据检索会增加延迟，通常在 50 到 200 毫秒之间，具体取决于数据库大小和嵌入模型。对于大多数应用来说，这种延迟可以忽略不计，但像语音助手这样的实时系统有时会倾向于使用纯参数化方法来最大限度地减少响应延迟。

对于专有知识，精细化调整能否取代检索？

并非总是如此。微调往往无法始终如一地教授特定事实，模型也容易遗忘或混淆细节。对于专有知识而言，检索要可靠得多，因为它直接呈现原始文档，而不是依赖模型回忆已学习的信息。

如果检索过程中找不到相关文档会发生什么情况？

该模型会回退到其参数记忆中，这意味着如果问题超出其训练数据范围，它可能会做出错误的判断。优秀的 RAG 系统能够巧妙地处理这种情况，要么承认不确定性，要么在检索置信度较低时拒绝回答。

较新的LLM还需要检索吗？

是的，即使是最先进的模型也能从数据检索中获益，因为它们的训练数据存在截止日期，而且它们无法访问私有或专有信息。数据检索无需重新训练即可扩展其有效知识，因此无论基础模型的性能如何，它都具有价值。

裁决

当您的数据频繁变化、需要引用来源，或者需要处理模型训练集中未包含的专有或专业知识时，请选择上下文检索。对于一般推理、对话流畅性以及低延迟比绝对事实准确性更重要的场景，则应依赖参数记忆。实际上，最强大的系统会将两者结合起来，利用上下文检索来获取事实，并利用参数记忆来处理其他所有情况。