人工知能ラグマルチモーダルAI検索拡張生成法学修士コンピュータビジョン

視覚コンテキストを使用したRAGとテキストのみのコンテキストを使用したRAGの比較

視覚コンテキストを備えたRAGは、テキストに加えて画像、図表、グラフなどを取得することで言語モデルを強化しますが、テキストのみのRAGは文章のみに依存します。ビジュアルRAGは、文書理解や視覚的な質問応答といったマルチモーダルなタスクに優れていますが、テキストのみのRAGは、よりシンプルで、高速かつ低コストで導入できます。

ハイライト

Visual RAGは、ページを画像として直接取得することで、OCRエラーを排除します。
テキストのみのRAGは、純粋に記述された知識ベースにおいては、依然として高速かつ低コストである。
マルチモーダルベンチマークでは、図表や文書のタスクにおいて、視覚的な検索が常に優位であることが示されている。
ハイブリッドパイプラインは、生産システムにおける実用的な中間的な選択肢として台頭しつつある。

視覚的コンテキスト付きRAGとは？

画像、図、視覚データを取り込んで言語モデルの応答を導き出す、検索機能を強化した生成アプローチ。

ビジュアルRAGシステムは、知識ベースからテキストコンテンツとビジュアルコンテンツの両方を取得し、マルチモーダル推論を支援する。
GPT-4V、Gemini、LLaVAなどのモデルは、取得した画像をコンテキストウィンドウ内で直接処理することができます。
ColPaliとColQwenは、ページを画像として扱い、従来のOCRパイプラインを迂回する文書検索技術を導入した。
ビジュアルRAGは、グラフ、インフォグラフィック、科学図、スキャンされた文書などを理解するのに特に効果的です。
MMMUやDocVQAといったベンチマークでは、テキストのみのパイプラインに画像検索を追加することで、目に見える効果が得られることが示されている。

テキストのみのコンテキストを使用したRAGとは？

文書中の記述部分のみを用いて言語モデルを構築する、従来型の検索拡張型生成手法。

テキストのみのRAGは、検索拡張生成を導入した2020年のLewisらの論文によって普及した。
一般的には、OpenAI text-embedding-3やBGEなどの埋め込みモデルを使用して、チャンクをベクトル表現に変換します。
検索は通常、テキストコーパスに対して、密ベクトル検索、BM25、またはハイブリッド手法を用いて行われます。
テキストのみのRAGは、現在、ほとんどの運用中のチャットボット、企業向け検索ツール、およびカスタマーサポートアシスタントの基盤となっている。
LangChain、LlamaIndex、Haystackといったフレームワークは、元々はテキストのみの検索パイプラインを中心に構築された。

比較表

機能	視覚的コンテキスト付きRAG	テキストのみのコンテキストを使用したRAG
入力方式	テキスト＋画像＋ビジュアルデータ	テキストのみ
検索方法	マルチモーダル埋め込み（例：ColPali、CLIP）	テキスト埋め込み (例: BGE、OpenAI ada)
最適な用途	チャート、図表、スキャンした文書、ビジュアルQA	記事、FAQ、コード、構造化テキスト
複雑	より高いレベル — ビジョンエンコーダーとより多くのストレージが必要	より低い - よりシンプルなパイプラインとインデックス作成
料金	画像処理とトークン使用により高くなる	特に短いテキストの塊では、低い
遅延	画像エンコードによりわずかに高くなる	一般的に速い
OCRの依存関係	多くの場合、直接画像検索によって排除される	スキャンされたPDFまたは画像ベースのPDFに必要です
サンプルモデル	GPT-4V、ジェミニ 1.5、LLaVA、Qwen-VL	GPT-4、クロード、ミストラル、ラマ3

詳細な比較

検索パイプラインの違い

テキストのみのRAGは、文書をチャンクに分割し、ベクトルに埋め込み、類似性検索のためにデータベースに保存するという、従来通りの手法を採用しています。一方、ビジュアルRAGは、ページ全体または画像をビジュアル埋め込みとしてエンコードすることで、根本的に異なるアプローチを採用しています。これにより、システムは単語だけでなく、レイアウト、グラフ、図表に基づいて情報を検索できるようになります。この変化により、ビジュアルRAGは、OCRでは読み取れない可能性のあるグラフ、表、手書きメモなどに含まれる情報も検出できるようになります。

マルチモーダル文書の正確性

財務チャート、エンジニアリング図、医療画像など、豊富なビジュアル要素を含むドキュメントの場合、ビジュアルRAGはテキストのみのアプローチよりも優れた性能を発揮する傾向があります。DocVQAおよびChartQAベンチマークに関する研究では、テキストとともに取得された画像を受け取るモデルは、抽出されたテキストのみに依存するモデルよりも質問に正しく回答できることが示されています。ただし、ブログ記事やコードリポジトリなど、純粋にテキストのみのソースの場合、テキストのみのRAGでも追加のオーバーヘッドなしで同等の性能を発揮します。

コストとインフラ

ビジュアルRAGは、インフラストラクチャにより多くの負荷をかけます。画像埋め込みを保存するにはより多くのディスク容量が必要となり、ColPaliのような画像エンコーダーは効率的に動作させるためにGPUを必要とし、画像を言語モデルに入力するにはプレーンテキストよりもはるかに多くのトークンを消費します。テキストのみのRAGは、特に視覚的な解釈を必要としない大規模な記事やドキュメントを扱う場合、ほとんどのチームにとって依然として予算に優しい選択肢です。

ケースフィットを使用

知識ベースにスキャンされたPDF、スライド資料、写真付き製品カタログなど、視覚的なレイアウトが重要なコンテンツが含まれる場合は、ビジュアルRAGを選択してください。テキストのみのRAGは、顧客サポートWiki、プレーンテキスト形式の法的契約書、コードドキュメント、および視覚的な忠実度よりも速度とコストが重要な対話型エージェントに最適です。現在、多くの運用システムでは、テキストと画像を組み合わせて使用し、一部のクエリにはテキストを、その他のクエリには画像を取得しています。

モデルの互換性

ビジュアルRAGには、GPT-4V、Claude 3.5 Sonnet、Gemini 1.5 Proなどの画像処理が可能なマルチモーダルモデル、またはLLaVAやQwen-VLといったオープンソースの代替モデルが必要です。テキストのみのRAGは、Llama 3 8BやMistral 7Bのような軽量オープンウェイトモデルを含む、ほぼすべての言語モデルに対応しており、低スペックのハードウェアでも利用可能です。より多くのモデルが画像認識機能を備えるようになるにつれて、この互換性のギャップは縮小していますが、テキストのみのセットアップは、現在でもより幅広い展開オプションを提供しています。

長所と短所

視覚的コンテキスト付きRAG

長所

+ チャートや図表を扱う
+ OCRの制限を回避する
+ 文書の理解度向上
+ レイアウト情報を取得します

コンス

− インフラコストの上昇
− 取得遅延が遅い
− マルチモーダルモデルが必要
− より大きなストレージ容量

テキストのみのコンテキストを使用したRAG

長所

+ 導入が簡単
+ 運用コストの削減
+ あらゆるLLMと互換性があります
+ 成熟したツーリングエコシステム

コンス

− 視覚的な問題
− OCRの精度によります
− レイアウトの手がかりを見逃す
− 画像が多いドキュメントには弱い

よくある誤解

神話

ビジュアルRAGは、テキストのみのRAGを完全に置き換えます。

現実

ビジュアルRAGは、テキストのみのアプローチを置き換えるのではなく、補完するものです。記事やコードなどの純粋なテキストコーパスの場合、テキストのみの検索の方が高速で、精度も同等です。ほとんどの運用システムでは、クエリを適切な検索器にルーティングするハイブリッド構成が効果的です。

神話

テキストのみのRAGは、画像を含むドキュメントを一切処理できません。

現実

テキストのみのRAGでも、OCRを先に実行して抽出したテキストをインデックス化することで、画像を含む文書を処理できます。品質はOCRパイプラインに大きく依存し、複雑なレイアウトでは意味が失われることが多いですが、多くのユースケースにおいて実用的なアプローチです。

神話

視覚的なRAGは、テキストのみのRAGよりも常に優れた回答を提供する。

現実

ビジュアルRAGは、取得したビジュアル情報がクエリに実際に関連している場合にのみ、テキストのみのRAGよりも優れた性能を発揮します。散文、コード、または構造化テキストに関するクエリの場合、画像を追加すると、精度が向上することなくノイズが発生し、コストが増加する可能性があります。

神話

ビジュアルRAGを実行するには、GPT-4VまたはGeminiが必要です。

現実

LLaVA、Qwen-VL、InternVL、MiniCPM-Vといったオープンソースモデルは、ビジュアルRAGタスクを効率的に処理できます。ColPaliのような小型ビジョンエンコーダとリトリーバを組み合わせることで、コンシューマー向けGPU上で動作させることが可能になり、独自のAPIを使用せずにビジュアルRAGを利用できるようになります。

神話

Visual RAGは、実運用で使用するには高価すぎる。

現実

ビジュアルRAGはテキストのみのRAGよりもコストがかかりますが、画像圧縮、埋め込みキャッシュ、選択的検索などの技術を用いることでコストを抑えることができます。法律、医療、金融など、文書量の多い業界では、精度向上によるコスト増は十分に見合うものです。

よくある質問

ビジュアルRAGとテキストのみのRAGの主な違いは何ですか？

ビジュアルRAGは、画像、文書ページ、視覚コンテンツを取得して言語モデルの応答の根拠とする一方、テキストのみのRAGは、書かれた文章のみを取得します。ビジュアルRAGはマルチモーダル埋め込みを使用してレイアウト、グラフ、図を理解するのに対し、テキストのみのRAGはテキスト埋め込みに依存し、スキャンされた文書にはOCRが必要となる場合が多いです。

視覚的なRAGは、テキストのみのRAGよりも正確ですか？

ビジュアルRAGは、チャート、図表、スキャンされた文書、およびビジュアル質問応答を含むタスクにおいて、より高い精度を発揮する傾向があります。DocVQAやChartQAなどのベンチマークでは、ビジュアル検索を追加することで顕著な改善が見られます。ただし、純粋なテキストクエリの場合、両手法の性能はほぼ同等です。

オープンソースモデルでビジュアルRAGを使用できますか？

はい、LLaVA、Qwen-VL、InternVL、MiniCPM-Vなどのオープンソースモデルは、ビジュアルRAGワークフローをサポートしています。ColPaliやColQwenなどのリトリーバと組み合わせることで、独自のAPIに依存することなく、ローカルGPU上で動作する完全オープンソースのビジュアルRAGパイプラインを構築できます。

ビジュアルRAGはOCRの必要性をなくすのか？

ビジュアルRAGは、文書ページを画像として直接取得し、視覚言語モデルで解釈することで、OCRを不要にすることが多い。これにより、複雑なレイアウト、手書き文字、低品質のスキャン画像におけるOCRエラーを回避できる。一部のハイブリッドシステムでは、メタデータのインデックス作成にOCRを使用し、実際のコンテンツはビジュアル検索に頼っている。

ビジュアルRAGは、テキストのみのRAGと比べてどれくらい費用がかかりますか？

ビジュアルRAGは、画像ストレージ、ビジョンエンコーダの処理能力、および言語モデルへの画像入力時のトークン使用量の増加により、テキストのみのRAGに比べて一般的に3～10倍のコストがかかります。コストは、ドキュメントサイズ、検索頻度、ホスト型APIを使用するかセルフホスト型モデルを使用するかによって異なります。

ColPaliとは何ですか？また、ビジュアルRAGとどのように関連していますか？

ColPaliは、2024年に発表された文書検索モデルで、文書ページを画像として扱い、PaliGemmaなどの画像エンコーダを使用して埋め込みを生成します。これは、多くの最新のビジュアルRAGシステム、特にPDFを多用する知識ベースを支えるビジュアル文書検索手法の先駆けとなりました。

テキストのみのRAGをビジュアルRAGよりも選択すべきなのはどのような場合ですか？

ナレッジベースが記事、コード、FAQ、チャットログなどのクリーンなテキストで構成されている場合は、テキストのみのRAGを選択してください。予算が限られている場合、レイテンシが重要な場合、または画像認識機能のない小型モデルに展開する場合にも、テキストのみのRAGがより良い選択肢となります。テキストのみのRAGは、ほとんどの従来型チャットボットおよび検索アプリケーションにとって、より安全なデフォルト設定です。

視覚的なRAGとテキストのみのRAGを組み合わせることは可能ですか？

はい、ハイブリッドRAGシステムは、並列検索を実行して結果を統合するか、質問の種類に基づいて適切な検索器にクエリをルーティングすることで、両方のアプローチを組み合わせます。これにより、単純なクエリにはテキストのみの検索によるコストメリットを、文書量の多い質問にはビジュアル検索による精度メリットが得られます。

視覚的RAGを評価するための最適なベンチマークは何ですか？

一般的なベンチマークとしては、文書理解のためのDocVQA、図表ベースの質問のためのChartQA、マルチモーダル推論のためのMMMU、インフォグラフィック理解のためのInfoVQAなどがあります。テキストのみのRAG（論理的推論）では、Natural Questions、TriviaQA、HotpotQAなどが人気のベンチマークです。

ビジュアルRAGを使用するには、マルチモーダルLLMが必要ですか？

はい、ビジュアルRAGには、GPT-4V、Claude 3.5 Sonnet、Gemini 1.5 Proなどの画像処理が可能な言語モデル、またはLLaVAやQwen-VLなどのオープンソースの代替モデルが必要です。GPT-4やLlama 3のような純粋なテキストモデルは取得した画像を解釈できないため、テキストのみのRAGでのみ機能します。

評決

データに画像が多い場合や、レイアウト、チャート、図表が重要な意味を持つ場合は、ビジュアルRAGを選択してください。ドキュメントAIやビジュアルQ&Aには最適です。従来のナレッジベース、迅速な導入、低コスト化には、テキストのみのRAGを使用してください。特にコンテンツが既にクリーンなテキスト形式の場合は有効です。多くのチームは、クエリの種類に応じて検索パスを決定するハイブリッドアプローチが最適だと考えています。