RAG s vizuálním kontextem vs. RAG s textovým kontextem
RAG s vizuálním kontextem obohacuje jazykové modely načítáním obrázků, grafů a diagramů vedle textu, zatímco textový RAG se spoléhá výhradně na písemné pasáže. Vizuální RAG vyniká v multimodálních úkolech, jako je porozumění dokumentům a vizuální odpovídání na otázky, zatímco textový RAG zůstává jednodušší, rychlejší a levnější na nasazení.
Zvýraznění
Visual RAG eliminuje chyby OCR tím, že načítá stránky přímo jako obrázky.
Pouze textový RAG zůstává pro čistě písemné znalostní báze rychlejší a levnější.
Multimodální benchmarky konzistentně upřednostňují vizuální vyhledávání pro úlohy s grafy a dokumenty.
Hybridní potrubí se objevují jako praktický kompromis mezi výrobními systémy.
Co je RAG s vizuálním kontextem?
Přístup generování s rozšířeným vyhledáváním, který stahuje obrázky, obrázky a vizuální data do odpovědí modelu základního jazyka.
Vizuální RAG systémy načítají textový i vizuální obsah ze znalostních bází pro podporu multimodálního uvažování.
Modely jako GPT-4V, Gemini a LLaVA dokáží zpracovávat načtené obrázky přímo v kontextových oknech.
Společnosti ColPali a ColQwen zavedly vyhledávání dokumentů, které zachází se stránkami jako s obrázky a obchází tak tradiční OCR kanály.
Vizuální RAG je obzvláště efektivní pro pochopení grafů, infografiky, vědeckých údajů a naskenovaných dokumentů.
Benchmarky jako MMMU a DocVQA ukazují měřitelné zisky, když je vizuální vyhledávání přidáno do textových kanálů.
Co je RAG s textovým kontextem?
Tradiční nastavení generování s rozšířeným vyhledáváním, které zakládá jazykové modely pouze na písemných pasážích z dokumentů.
Pouze textový RAG byl popularizován původním článkem Lewise a kol. z roku 2020, který zavedl generování rozšířené o vyhledávání.
Obvykle používá modely vkládání, jako je OpenAI text-embedding-3 nebo BGE, k převodu bloků dat do vektorových reprezentací.
Vyhledávání se obvykle provádí pomocí hustého vektorového vyhledávání, BM25 nebo hybridních metod nad textovými korpusy.
Textový RAG dnes pohání většinu produkčních chatbotů, podnikových vyhledávacích nástrojů a asistentů zákaznické podpory.
Frameworky jako LangChain, LlamaIndex a Haystack byly původně postaveny na textových vyhledávacích kanálech.
Srovnávací tabulka
Funkce
RAG s vizuálním kontextem
RAG s textovým kontextem
Vstupní modalita
Text + Obrázky + Vizuální data
Pouze text
Metoda vyhledávání
Multimodální vkládání (např. ColPali, CLIP)
vkládání textu (např. BGE, OpenAI ada)
Nejlepší pro
Grafy, diagramy, naskenované dokumenty, vizuální kontrola kvality
Články, Často kladené otázky, kód, strukturovaný text
Složitost
Vyšší – vyžaduje enkodéry obrazu a více úložiště
Nižší – jednodušší kanály a indexování
Náklady
Vyšší kvůli zpracování obrazu a využití tokenů
Nižší, zejména u malých textových bloků
Latence
Mírně vyšší než kódování obrazu
Obecně rychlejší
Závislost OCR
Často eliminováno přímým vyhledáváním obrazu
Vyžadováno pro naskenované nebo obrazové PDF soubory
Příklady modelů
GPT-4V, Gemini 1.5, LLaVA, Qwen-VL
GPT-4, Claude, Mistral, Lama 3
Podrobné srovnání
Rozdíly v načítacím kanálu
Pouze textový RAG sleduje osvědčenou cestu: dokumenty jsou rozděleny na části, vloženy do vektorů a uloženy v databázi pro vyhledávání podobností. Vizuální RAG volí zásadně odlišný přístup kódováním celých stránek nebo obrázků jako vizuálních vložených prvků, což systému umožňuje načítat informace na základě rozvržení, grafů a obrázků, nikoli pouze slov. Tato změna znamená, že vizuální RAG dokáže najít informace, které se nacházejí v grafech, tabulkách nebo ručně psaných poznámkách, které by OCR mohlo zkomolit.
Přesnost multimodálních dokumentů
Pokud dokumenty obsahují bohaté vizuální prvky, jako jsou finanční grafy, technické diagramy nebo lékařské zobrazování, vizuální RAG má tendenci překonávat přístupy založené pouze na textu. Studie benchmarků DocVQA a ChartQA ukazují, že modely, které přijímají načtené obrázky spolu s textem, odpovídají na otázky správněji než ty, které se spoléhají pouze na extrahovaný text. U čistě textových zdrojů, jako jsou blogové příspěvky nebo repozitáře kódu, však RAG založený pouze na textu funguje stejně dobře bez dodatečných režijních nákladů.
Náklady a infrastruktura
Vizuální RAG vyžaduje od vaší infrastruktury více místa. Ukládání vložených obrázků zabírá více místa na disku, vizuální kodéry jako ColPali vyžadují pro efektivní chod grafické procesory a vkládání obrázků do jazykových modelů spotřebovává mnohem více tokenů než prostý text. Pouze textový RAG zůstává pro většinu týmů cenově dostupnou volbou, zejména při práci s velkými soubory článků nebo dokumentace, které nevyžadují vizuální interpretaci.
Použití případu
Zvolte vizuální RAG, pokud vaše znalostní báze obsahuje naskenované PDF soubory, prezentaci, katalogy produktů s fotografiemi nebo jakýkoli obsah, kde vizuální rozvržení má význam. Textový RAG se osvědčil pro wiki zákaznické podpory, právní smlouvy v prostém textu, dokumentaci kódu a konverzační agenty, kde rychlost a náklady jsou důležitější než vizuální věrnost. Mnoho produkčních systémů nyní kombinuje obojí a pro některé dotazy načítá text a pro jiné obrázky.
Kompatibilita modelů
Vizuální RAG vyžaduje multimodální model schopný zpracovávat obrazy, jako například GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro nebo open-source alternativy jako LLaVA a Qwen-VL. Textový RAG funguje prakticky s jakýmkoli jazykovým modelem, včetně menších open-weight modelů, jako jsou Llama 3 8B nebo Mistral 7B, takže je dostupný i na skromnějším hardwaru. Tato mezera v kompatibilitě se zmenšuje s tím, jak stále více modelů získává funkce pro práci s vizuálními technologiemi, ale textové nastavení stále nabízejí širší možnosti nasazení.
Výhody a nevýhody
RAG s vizuálním kontextem
Výhody
+Zvládá grafy a diagramy
+Obchází omezení OCR
+Lepší porozumění dokumentům
+Zachycuje informace o rozvržení
Souhlasím
−Vyšší náklady na infrastrukturu
−Pomalejší latence načítání
−Potřebuje multimodální modely
−Větší úložný prostor
RAG s textovým kontextem
Výhody
+Snadné nasazení
+Nižší provozní náklady
+Funguje s jakýmkoli LLM
+Zralý ekosystém nástrojů
Souhlasím
−Problémy s vizuální stránkou
−Záleží na kvalitě OCR
−Mine rozvržení
−Slabší v dokumentech s velkým množstvím obrázků
Běžné mýty
Mýtus
Vizuální RAG kompletně nahrazuje pouze textový RAG.
Realita
Vizuální RAG spíše doplňuje než nahrazuje textové přístupy. Pro čistě textové korpusy, jako jsou články nebo kód, je textové vyhledávání stále rychlejší a stejně přesné. Většina produkčních systémů těží z hybridního nastavení, které směruje dotazy k příslušnému vyhledávači.
Mýtus
Textový RAG vůbec neumí pracovat s dokumenty s obrázky.
Realita
Pouze textový RAG dokáže zpracovávat dokumenty obsahující obrázky, a to tak, že nejprve spustí OCR a indexuje extrahovaný text. Kvalita sice silně závisí na postupu OCR a složité rozvržení často ztrácí smysl, ale pro mnoho případů použití je to funkční přístup.
Mýtus
Vizuální RAG vždy dává lepší odpovědi než pouze textový RAG.
Realita
Vizuální RAG překonává textový RAG pouze tehdy, když jsou načtené vizuální informace skutečně relevantní pro dotaz. U otázek týkajících se prózy, kódu nebo strukturovaného textu může přidání obrázků způsobit šum a zvýšit náklady, aniž by se zlepšila přesnost.
Mýtus
Pro vizuální RAG potřebujete GPT-4V nebo Gemini.
Realita
Modely s otevřeným zdrojovým kódem, jako jsou LLaVA, Qwen-VL, InternVL a MiniCPM-V, dokáží efektivně zvládat vizuální úlohy RAG. Menší vizuální kodéry v kombinaci s vyhledávači, jako je ColPali, běží na spotřebitelských GPU, takže vizuální RAG je přístupný bez proprietárních API.
Mýtus
Visual RAG je pro produkční použití příliš drahý.
Realita
I když vizuální RAG stojí více než pouze text, techniky jako je komprese obrázků, vkládání do mezipaměti a selektivní vyhledávání udržují náklady na zvládnutelné úrovni. V odvětvích s velkým množstvím dokumentů, jako je právo, zdravotnictví a finance, zvýšení přesnosti často ospravedlňuje náklady.
Často kladené otázky
Jaký je hlavní rozdíl mezi vizuální RAG a pouze textovou RAG?
Vizuální RAG načítá obrázky, stránky dokumentů a vizuální obsah do odpovědí modelu základního jazyka, zatímco textový RAG načítá pouze psané pasáže. Vizuální RAG používá multimodální vkládání k pochopení rozvržení, grafů a obrázků, zatímco textový RAG se spoléhá na vkládání textu a často vyžaduje OCR pro naskenované dokumenty.
Je vizuální RAG přesnější než pouze textový RAG?
Vizuální RAG bývá přesnější u úkolů zahrnujících grafy, diagramy, naskenované dokumenty a vizuální odpovědi na otázky. Srovnávací testy jako DocVQA a ChartQA vykazují významné zlepšení po přidání vizuálního vyhledávání. U čistě textových dotazů si však oba přístupy vedou podobně.
Mohu použít vizuální RAG s modely s otevřeným zdrojovým kódem?
Ano, open-source modely jako LLaVA, Qwen-VL, InternVL a MiniCPM-V podporují vizuální RAG pracovní postupy. V kombinaci s retrievery jako ColPali nebo ColQwen můžete vytvářet plně open-source vizuální RAG kanály, které běží na lokálních GPU bez závislosti na proprietárních API.
Eliminuje vizuální RAG potřebu OCR?
Vizuální RAG často eliminuje OCR tím, že načítá stránky dokumentu přímo jako obrázky a nechává je interpretovat modelem vizuálního jazyka. Tím se zabrání chybám OCR u složitých rozvržení, rukopisu nebo nekvalitních skenů. Některé hybridní systémy stále používají OCR pro indexování metadat, zatímco se pro skutečný obsah spoléhají na vizuální vyhledávání.
Kolik stojí vizuální RAG ve srovnání s textovým RAG?
Vizuální RAG je obvykle 3 až 10krát dražší než textový RAG kvůli úložišti obrázků, výpočetnímu výkonu vizuální enkodéru a vyššímu využití tokenů při přenosu obrázků do jazykových modelů. Náklady se liší v závislosti na velikosti dokumentu, frekvenci načítání a na tom, zda používáte hostovaná API nebo samostatně hostované modely.
Co je ColPali a jak souvisí s vizuální RAG?
ColPali je model pro vyhledávání dokumentů, představený v roce 2024, který zachází se stránkami dokumentů jako s obrázky a k vytváření vnoření používá vizuální kodéry, jako je PaliGemma. Byl průkopníkem v přístupu k vizuálnímu vyhledávání dokumentů, který je základem mnoha moderních vizuálních RAG systémů, zejména pro znalostní báze s velkým množstvím PDF.
Kdy bych si měl/a zvolit pouze textový RAG před vizuálním RAG?
Pokud vaše znalostní báze obsahuje čistý text, jako jsou články, kód, nejčastější dotazy nebo protokoly chatu, zvolte pouze textovou RAG. Je to také lepší volba, když máte omezený rozpočet, záleží na latenci nebo nasazujete na menších modelech bez funkcí vizuální inteligence. Pouze textová RAG je bezpečnější výchozí volbou pro většinu tradičních aplikací pro chatboty a vyhledávání.
Lze kombinovat vizuální RAG a pouze textový RAG?
Ano, hybridní systémy RAG kombinují oba přístupy spouštěním paralelních vyhledávačů a slučováním výsledků nebo směrováním dotazů na příslušný vyhledávač na základě typu otázky. To vám přináší cenové výhody textového vyhledávání u jednoduchých dotazů a výhody přesnosti vizuálního vyhledávání u otázek s velkým množstvím dokumentů.
Jaké jsou nejlepší kritéria pro hodnocení vizuálního RAG?
Mezi běžné benchmarky patří DocVQA pro porozumění dokumentům, ChartQA pro otázky založené na grafech, MMMU pro multimodální uvažování a InfoVQA pro porozumění infografice. Pro textové RAG patří mezi oblíbené benchmarky Natural Questions, TriviaQA a HotpotQA.
Potřebuji multimodální LLM pro použití vizuálního RAG?
Ano, vizuální RAG vyžaduje jazykový model, který dokáže zpracovávat obrázky, jako například GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro nebo open-source alternativy jako LLaVA a Qwen-VL. Čistě textové modely, jako je základní GPT-4 nebo Llama 3, nemohou interpretovat načtené obrázky, takže fungují pouze s textovým RAG.
Rozhodnutí
Zvolte vizuální RAG, pokud vaše data obsahují hodně obrázků nebo pokud rozvržení, grafy a diagramy nesou kritický význam – je to jasný vítěz pro AI v dokumentech a vizuální odpovědi na otázky. Držte se pouze textového RAG pro tradiční znalostní báze, rychlejší nasazení a nižší náklady, zejména pokud je váš obsah již v čisté textové podobě. Mnoho týmů zjišťuje, že hybridní přístup funguje nejlépe, když nechá typ dotazu rozhodnout, jakou cestu vyhledávání zvolí.