人工智能抹布多模态人工智能llm幻觉检索增强生成

RAG 中的图像接地与非接地文本生成

RAG 中的图像锚定技术将人工智能的响应与从文档中提取的视觉证据联系起来，从而减少幻觉并提高事实准确性。而无锚定文本生成仅依赖于训练数据中的参数知识，虽然能够生成流畅但可能虚假的输出，且缺乏可验证的来源。

亮点

图像基础将每个主张与可检索的视觉来源联系起来，使输出结果可审计，这是无基础生成方式无法比拟的。
无基准模型生成速度更快、成本更低，因为它们完全跳过了检索和视觉编码步骤。
接地系统大幅减少了幻觉，但当检索结果返回模糊图像时，仍然偶尔会误读图表或示意图。
对于创意写作而言，脱离现实的创作方式仍然是更好的选择，因为事实的束缚实际上会限制有用的作品。

RAG 中的图像基础是什么？

一种检索增强方法，将生成的文本与源文档中的特定图像或视觉区域链接起来，以实现可验证的输出。

结合检索增强生成和多模态基础，将相关的图像或文档页面与文本块一起提取。
通过强制模型参考检索到的视觉证据而不是依赖记忆的模式来减少幻觉。
通常使用 CLIP、BLIP-2 或 GPT-4V 等视觉语言模型将文本答案与图像区域对齐。
为视觉问答、文档理解和基于图表的推理系统等应用提供支持。
需要一个能够索引文本和图像嵌入的多模态矢量数据库或文档存储系统。

无根据的文本生成是什么？

一种传统的语言建模方法，其输出完全来自模型学习到的参数，而没有外部检索或视觉证据。

仅使用预训练期间学习到的权重生成文本，推理时无法访问外部文档。
由 GPT-3、LLaMA 和最初的 BERT 生成变体等基于 Transformer 的模型开创。
由于该模型能够自信地得出看似合理但实际上错误的陈述，因此容易产生幻觉。
在检索增强技术普及之前，它构成了大多数对话式人工智能系统的基础。
由于在响应生成过程中完全跳过了检索步骤，因此其运行速度比地面系统更快。

比较表

功能	RAG 中的图像基础	无根据的文本生成
知识来源	从外部文档中检索图像和文本	模型权重中存储的参数知识
幻觉风险	低至中等，受已检索证据的限制	高，尤其适用于小众或近期话题
延迟	由于检索和图像处理步骤，数值较高	由于生成过程仅通过一次前向传递即可完成，因此数值较低。
计算成本	需要矢量数据库、视觉编码器和LLM	仅需语言模型推理
可验证性	答案可以追溯到特定的图片或页面。	输出结果无法追溯到可验证的来源。
最佳应用案例	文档质量保证、视觉推理、图表解读	创意写作、头脑风暴、一般对话
多式联运能力	原生支持图像、图表和示意图	除非与单独的视觉模块配合使用，否则仅显示文本
更新频率	通过更新文档索引来更新知识	知识只能通过再培训或微调来更新

详细对比

每种方法如何产生答案

RAG 中的图像接地机制首先将用户查询转换为嵌入向量，然后从矢量存储库中检索最相关的图像或文档页面，最后将查询和检索到的视觉证据输入到视觉语言模型中。该模型被明确指示根据其在检索到的内容中看到的信息来生成答案。而无接地文本生成则完全跳过了这一检索步骤。模型直接接收提示，并根据其在训练过程中学习到的模式生成响应，这虽然速度更快，但却无法引用或验证其结论。

准确性和幻觉行为

基于实证的系统能够显著减少错觉，因为模型拥有具体的视觉证据来支撑其推理。如果检索到的图像显示了一个特定的图表，那么答案必须反映该图表实际描绘的内容。另一方面，缺乏实证的模型可能会捏造统计数据、虚构引用，或者描述根本不存在的视觉内容。来自谷歌DeepMind和Meta等机构的研究反复表明，在基于事实的基准测试中，检索增强型系统优于纯参数化系统，尽管它们偶尔仍会出现对检索到的图像的错误解读。

基础设施和成本考量

运行基于图像的 RAG 需要更多组件：多模态嵌入模型、用于图像存储的矢量数据库（例如 Milvus 或 Weaviate）、用于最终生成的视觉语言模型以及用于预处理文档的流程。非基于图像的生成仅需一个语言模型接口，因此部署起来更便宜、更简单。对于初创公司或业余项目而言，非基于图像的生成方式的简便性极具吸引力，但处理受监管内容的企业通常会为了基于图像的可验证性而接受额外的成本。

灵活性和创造性产出

当创意比事实精确性更重要时，无依据文本生成便能大放异彩。无论是创作诗歌、集思广益地构思产品名称，还是生成虚构对话，都能受益于该模型即兴发挥的能力，而无需受限于检索到的证据。基于图像的 RAG 则不太适合这些任务，因为检索步骤会引入事实内容，这可能会限制创作自由。一些混合系统试图在两者之间取得平衡，它们既能保证事实性陈述的准确性，又能保持风格元素的自由发挥。

实际部署示例

Notion、Hebbia 和 Glean 等公司使用基于图像的 RAG（红绿灯）算法，帮助用户通过自然语言查询 PDF、幻灯片和电子表格。它们的系统能够检索相关的页面或图表，并生成直接引用视觉内容的答案。非基于图像的生成方式在聊天机器人（例如早期版本的 Character.ai）或自动完成功能中仍然占据主导地位，因为在这些应用中，速度比引用更重要。但到了 2024 年和 2025 年，趋势已明显转向基于图像的系统，适用于任何对信任度和准确性要求极高的应用。

优点与缺点

RAG 中的图像基础

优点

+ 可验证的输出
+ 幻觉发生率降低
+ 设计上采用多模式
+ 来自索引的新知识

继续

− 延迟较高
− 复杂的基础设施
− 检索质量取决于
− 更高的计算成本

无根据的文本生成

优点

+ 快速推理
+ 简单部署
+ 创造性的灵活性
+ 降低基础设施成本

继续

− 频繁出现幻觉
− 无来源引用
− 过时的知识
− 多模式支持有限

常见误解

神话

接地可以完全消除人工智能输出中的幻觉。

现实

接地可以显著减少幻觉，但无法完全消除。模型仍然可能误解检索到的图像，从图表中得出错误结论，或以误导性的方式组合证据。对于高风险应用，人工审核仍然至关重要。

神话

未经实地检验的模型总是比经过实地检验的模型精度低。

现实

对于训练数据中大量出现的通用知识问题，一个规模较大的非基础模型可以达到甚至超过一个规模较小的基础模型。只有在训练数据稀少的冷门、近期或专业性较强的主题上，准确率差距才会变得明显。

神话

图像接地是指模型像人一样直接读取像素。

现实

视觉语言模型通过学习到的嵌入向量来处理图像，而非真正理解图像的视觉特性。它们可能会忽略细微的细节，混淆外观相似的物体，或者在低分辨率图像上表现不佳，因此，模型的性能很大程度上取决于所使用的视觉编码器。

神话

RAG系统不需要大型语言模型就能良好运行。

现实

检索步骤负责知识查找，但语言模型仍需具备足够的推理能力来处理检索到的证据并生成连贯的答案。即使检索完美，规模较小或能力较弱的语言模型通常也会产生较差的结果。

神话

在 RAG 时代，无根据的文本生成已经过时了。

现实

无基准生成仍然是大多数人工智能系统的基础，并且通常用于 RAG 流程内部的最终答案生成步骤。这两种方法是互补的，而非相互排斥的。

常见问题解答

RAG中的图像接地是什么？

在 RAG 中，图像接地是一种技术，它利用检索增强生成系统从知识库中提取相关的图像、图表或文档页面，并将其作为语言模型答案的视觉证据。与依赖记忆的训练数据不同，该模型基于检索到的内容实际呈现的信息来生成答案，从而使输出更加准确和可验证。

无根据的文本生成与有根据的文本生成有何不同？

非循证文本生成仅使用模型训练参数中存储的知识进行输出。循证文本生成则在推理时补充外部信息。关键区别在于，循证系统可以引用来源并处理最新信息，而非循证系统则无法做到这一点。

哪种方法产生的幻觉更少？

基于图像的随机数生成器（RAG）系统产生的幻觉较少，因为其模型受到检索到的视觉证据的约束。来自谷歌、微软和学术实验室的研究一致表明，与非基于图像的生成方式相比，基于图像的生成方式可将事实错误减少40%至70%，尽管两种方法都无法完全消除幻觉。

能否将这两种方法结合起来到一个系统中？

是的，混合系统越来越普遍。典型的设置是先使用非语境生成来保证对话流畅性和风格要素，然后再叠加检索和语境化来处理事实性陈述。一些流程还会使用非语境模型来重写或总结语境化的输出，以提高可读性。

RAG模型中哪些模型支持图像接地？

常用的选项包括 GPT-4V、Claude 3.5 Sonnet、Gemini 1.5 Pro 以及 LLaVA、Qwen-VL 和 InternVL 等开源模型。在检索方面，CLIP、SigLIP 和 BLIP-2 常用于将图像嵌入到与文本查询相同的向量空间中。

无根据的文本生成比有根据的文本生成速度更快吗？

是的，非地面生成通常速度更快，因为它跳过了检索步骤和任何图像处理。地面生成系统可能会增加 200 到 800 毫秒的延迟，具体取决于所使用的矢量数据库和视觉编码器，这对于聊天机器人等实时应用来说至关重要。

我需要哪些基础设施来实现基于镜像的 RAG？

你需要一个支持多模态嵌入的矢量数据库（例如 Milvus、Weaviate 或 Qdrant），一个用于最终生成步骤的视觉语言模型，一个用于索引图像的嵌入模型，以及一个用于从 PDF 或幻灯片中提取和分块视觉内容的文档处理流程。

为什么缺乏现实基础的模型经常会产生幻觉？

缺乏实证基础的模型会产生幻觉，因为它们生成的文本基于统计模式而非已验证的事实。当被问及训练数据有限的问题时，它们会用听起来合情合理但实际上错误的信息来填补空白。这有时被称为模型倾向于“编造事实”而非承认不确定性。

图像接地可以处理图表吗？

现代基于图像的红绿灯系统能够较好地处理图表，尤其是在视觉编码器已经过文档图像训练的情况下。像 GPT-4V 和 Gemini 这样的模型可以从柱状图中提取数据、读取屏幕截图中的表格，甚至可以解读手写笔记，尽管准确率会随图像质量而变化。

图像接地与多模态人工智能相同吗？

它们有所重叠，但并不完全相同。多模态人工智能指的是任何能够处理多种输入类型（例如文本、图像和音频）的系统。图像锚定特指将生成的文本与检索到的视觉证据进行关联，这是多模态人工智能的一种应用，但并非唯一应用。

裁决

在 RAG 中，当准确性、可验证性和多模态理解至关重要时，例如企业搜索、医疗文档分析或任何幻觉会产生实际后果的应用场景，应选择图像接地。对于创意任务、快速原型设计或部署简便性和低延迟比获取可靠答案更重要的场景，则应坚持使用非接地文本生成。