umělá inteligencehadrmultimodální AIgenerování rozšířeného vyhledáváníLLMpočítačové vidění

RAG s vizuálním kontextem vs. RAG s textovým kontextem

RAG s vizuálním kontextem obohacuje jazykové modely načítáním obrázků, grafů a diagramů vedle textu, zatímco textový RAG se spoléhá výhradně na písemné pasáže. Vizuální RAG vyniká v multimodálních úkolech, jako je porozumění dokumentům a vizuální odpovídání na otázky, zatímco textový RAG zůstává jednodušší, rychlejší a levnější na nasazení.

Zvýraznění

Visual RAG eliminuje chyby OCR tím, že načítá stránky přímo jako obrázky.
Pouze textový RAG zůstává pro čistě písemné znalostní báze rychlejší a levnější.
Multimodální benchmarky konzistentně upřednostňují vizuální vyhledávání pro úlohy s grafy a dokumenty.
Hybridní potrubí se objevují jako praktický kompromis mezi výrobními systémy.

Co je RAG s vizuálním kontextem?

Přístup generování s rozšířeným vyhledáváním, který stahuje obrázky, obrázky a vizuální data do odpovědí modelu základního jazyka.

Vizuální RAG systémy načítají textový i vizuální obsah ze znalostních bází pro podporu multimodálního uvažování.
Modely jako GPT-4V, Gemini a LLaVA dokáží zpracovávat načtené obrázky přímo v kontextových oknech.
Společnosti ColPali a ColQwen zavedly vyhledávání dokumentů, které zachází se stránkami jako s obrázky a obchází tak tradiční OCR kanály.
Vizuální RAG je obzvláště efektivní pro pochopení grafů, infografiky, vědeckých údajů a naskenovaných dokumentů.
Benchmarky jako MMMU a DocVQA ukazují měřitelné zisky, když je vizuální vyhledávání přidáno do textových kanálů.

Co je RAG s textovým kontextem?

Tradiční nastavení generování s rozšířeným vyhledáváním, které zakládá jazykové modely pouze na písemných pasážích z dokumentů.

Pouze textový RAG byl popularizován původním článkem Lewise a kol. z roku 2020, který zavedl generování rozšířené o vyhledávání.
Obvykle používá modely vkládání, jako je OpenAI text-embedding-3 nebo BGE, k převodu bloků dat do vektorových reprezentací.
Vyhledávání se obvykle provádí pomocí hustého vektorového vyhledávání, BM25 nebo hybridních metod nad textovými korpusy.
Textový RAG dnes pohání většinu produkčních chatbotů, podnikových vyhledávacích nástrojů a asistentů zákaznické podpory.
Frameworky jako LangChain, LlamaIndex a Haystack byly původně postaveny na textových vyhledávacích kanálech.

Srovnávací tabulka

Funkce	RAG s vizuálním kontextem	RAG s textovým kontextem
Vstupní modalita	Text + Obrázky + Vizuální data	Pouze text
Metoda vyhledávání	Multimodální vkládání (např. ColPali, CLIP)	vkládání textu (např. BGE, OpenAI ada)
Nejlepší pro	Grafy, diagramy, naskenované dokumenty, vizuální kontrola kvality	Články, Často kladené otázky, kód, strukturovaný text
Složitost	Vyšší – vyžaduje enkodéry obrazu a více úložiště	Nižší – jednodušší kanály a indexování
Náklady	Vyšší kvůli zpracování obrazu a využití tokenů	Nižší, zejména u malých textových bloků
Latence	Mírně vyšší než kódování obrazu	Obecně rychlejší
Závislost OCR	Často eliminováno přímým vyhledáváním obrazu	Vyžadováno pro naskenované nebo obrazové PDF soubory
Příklady modelů	GPT-4V, Gemini 1.5, LLaVA, Qwen-VL	GPT-4, Claude, Mistral, Lama 3

Podrobné srovnání

Rozdíly v načítacím kanálu

Pouze textový RAG sleduje osvědčenou cestu: dokumenty jsou rozděleny na části, vloženy do vektorů a uloženy v databázi pro vyhledávání podobností. Vizuální RAG volí zásadně odlišný přístup kódováním celých stránek nebo obrázků jako vizuálních vložených prvků, což systému umožňuje načítat informace na základě rozvržení, grafů a obrázků, nikoli pouze slov. Tato změna znamená, že vizuální RAG dokáže najít informace, které se nacházejí v grafech, tabulkách nebo ručně psaných poznámkách, které by OCR mohlo zkomolit.

Přesnost multimodálních dokumentů

Pokud dokumenty obsahují bohaté vizuální prvky, jako jsou finanční grafy, technické diagramy nebo lékařské zobrazování, vizuální RAG má tendenci překonávat přístupy založené pouze na textu. Studie benchmarků DocVQA a ChartQA ukazují, že modely, které přijímají načtené obrázky spolu s textem, odpovídají na otázky správněji než ty, které se spoléhají pouze na extrahovaný text. U čistě textových zdrojů, jako jsou blogové příspěvky nebo repozitáře kódu, však RAG založený pouze na textu funguje stejně dobře bez dodatečných režijních nákladů.

Náklady a infrastruktura

Vizuální RAG vyžaduje od vaší infrastruktury více místa. Ukládání vložených obrázků zabírá více místa na disku, vizuální kodéry jako ColPali vyžadují pro efektivní chod grafické procesory a vkládání obrázků do jazykových modelů spotřebovává mnohem více tokenů než prostý text. Pouze textový RAG zůstává pro většinu týmů cenově dostupnou volbou, zejména při práci s velkými soubory článků nebo dokumentace, které nevyžadují vizuální interpretaci.

Použití případu

Zvolte vizuální RAG, pokud vaše znalostní báze obsahuje naskenované PDF soubory, prezentaci, katalogy produktů s fotografiemi nebo jakýkoli obsah, kde vizuální rozvržení má význam. Textový RAG se osvědčil pro wiki zákaznické podpory, právní smlouvy v prostém textu, dokumentaci kódu a konverzační agenty, kde rychlost a náklady jsou důležitější než vizuální věrnost. Mnoho produkčních systémů nyní kombinuje obojí a pro některé dotazy načítá text a pro jiné obrázky.

Kompatibilita modelů

Vizuální RAG vyžaduje multimodální model schopný zpracovávat obrazy, jako například GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro nebo open-source alternativy jako LLaVA a Qwen-VL. Textový RAG funguje prakticky s jakýmkoli jazykovým modelem, včetně menších open-weight modelů, jako jsou Llama 3 8B nebo Mistral 7B, takže je dostupný i na skromnějším hardwaru. Tato mezera v kompatibilitě se zmenšuje s tím, jak stále více modelů získává funkce pro práci s vizuálními technologiemi, ale textové nastavení stále nabízejí širší možnosti nasazení.

Výhody a nevýhody

RAG s vizuálním kontextem

Výhody

+ Zvládá grafy a diagramy
+ Obchází omezení OCR
+ Lepší porozumění dokumentům
+ Zachycuje informace o rozvržení

Souhlasím

− Vyšší náklady na infrastrukturu
− Pomalejší latence načítání
− Potřebuje multimodální modely
− Větší úložný prostor

RAG s textovým kontextem

Výhody

+ Snadné nasazení
+ Nižší provozní náklady
+ Funguje s jakýmkoli LLM
+ Zralý ekosystém nástrojů

Souhlasím

− Problémy s vizuální stránkou
− Záleží na kvalitě OCR
− Mine rozvržení
− Slabší v dokumentech s velkým množstvím obrázků

Běžné mýty

Mýtus

Vizuální RAG kompletně nahrazuje pouze textový RAG.

Realita

Vizuální RAG spíše doplňuje než nahrazuje textové přístupy. Pro čistě textové korpusy, jako jsou články nebo kód, je textové vyhledávání stále rychlejší a stejně přesné. Většina produkčních systémů těží z hybridního nastavení, které směruje dotazy k příslušnému vyhledávači.

Mýtus

Textový RAG vůbec neumí pracovat s dokumenty s obrázky.

Realita

Pouze textový RAG dokáže zpracovávat dokumenty obsahující obrázky, a to tak, že nejprve spustí OCR a indexuje extrahovaný text. Kvalita sice silně závisí na postupu OCR a složité rozvržení často ztrácí smysl, ale pro mnoho případů použití je to funkční přístup.

Mýtus

Vizuální RAG vždy dává lepší odpovědi než pouze textový RAG.

Realita

Vizuální RAG překonává textový RAG pouze tehdy, když jsou načtené vizuální informace skutečně relevantní pro dotaz. U otázek týkajících se prózy, kódu nebo strukturovaného textu může přidání obrázků způsobit šum a zvýšit náklady, aniž by se zlepšila přesnost.

Mýtus

Pro vizuální RAG potřebujete GPT-4V nebo Gemini.

Realita

Modely s otevřeným zdrojovým kódem, jako jsou LLaVA, Qwen-VL, InternVL a MiniCPM-V, dokáží efektivně zvládat vizuální úlohy RAG. Menší vizuální kodéry v kombinaci s vyhledávači, jako je ColPali, běží na spotřebitelských GPU, takže vizuální RAG je přístupný bez proprietárních API.

Mýtus

Visual RAG je pro produkční použití příliš drahý.

Realita

I když vizuální RAG stojí více než pouze text, techniky jako je komprese obrázků, vkládání do mezipaměti a selektivní vyhledávání udržují náklady na zvládnutelné úrovni. V odvětvích s velkým množstvím dokumentů, jako je právo, zdravotnictví a finance, zvýšení přesnosti často ospravedlňuje náklady.

Často kladené otázky

Jaký je hlavní rozdíl mezi vizuální RAG a pouze textovou RAG?

Vizuální RAG načítá obrázky, stránky dokumentů a vizuální obsah do odpovědí modelu základního jazyka, zatímco textový RAG načítá pouze psané pasáže. Vizuální RAG používá multimodální vkládání k pochopení rozvržení, grafů a obrázků, zatímco textový RAG se spoléhá na vkládání textu a často vyžaduje OCR pro naskenované dokumenty.

Je vizuální RAG přesnější než pouze textový RAG?

Vizuální RAG bývá přesnější u úkolů zahrnujících grafy, diagramy, naskenované dokumenty a vizuální odpovědi na otázky. Srovnávací testy jako DocVQA a ChartQA vykazují významné zlepšení po přidání vizuálního vyhledávání. U čistě textových dotazů si však oba přístupy vedou podobně.

Mohu použít vizuální RAG s modely s otevřeným zdrojovým kódem?

Ano, open-source modely jako LLaVA, Qwen-VL, InternVL a MiniCPM-V podporují vizuální RAG pracovní postupy. V kombinaci s retrievery jako ColPali nebo ColQwen můžete vytvářet plně open-source vizuální RAG kanály, které běží na lokálních GPU bez závislosti na proprietárních API.

Eliminuje vizuální RAG potřebu OCR?

Vizuální RAG často eliminuje OCR tím, že načítá stránky dokumentu přímo jako obrázky a nechává je interpretovat modelem vizuálního jazyka. Tím se zabrání chybám OCR u složitých rozvržení, rukopisu nebo nekvalitních skenů. Některé hybridní systémy stále používají OCR pro indexování metadat, zatímco se pro skutečný obsah spoléhají na vizuální vyhledávání.

Kolik stojí vizuální RAG ve srovnání s textovým RAG?

Vizuální RAG je obvykle 3 až 10krát dražší než textový RAG kvůli úložišti obrázků, výpočetnímu výkonu vizuální enkodéru a vyššímu využití tokenů při přenosu obrázků do jazykových modelů. Náklady se liší v závislosti na velikosti dokumentu, frekvenci načítání a na tom, zda používáte hostovaná API nebo samostatně hostované modely.

Co je ColPali a jak souvisí s vizuální RAG?

ColPali je model pro vyhledávání dokumentů, představený v roce 2024, který zachází se stránkami dokumentů jako s obrázky a k vytváření vnoření používá vizuální kodéry, jako je PaliGemma. Byl průkopníkem v přístupu k vizuálnímu vyhledávání dokumentů, který je základem mnoha moderních vizuálních RAG systémů, zejména pro znalostní báze s velkým množstvím PDF.

Kdy bych si měl/a zvolit pouze textový RAG před vizuálním RAG?

Pokud vaše znalostní báze obsahuje čistý text, jako jsou články, kód, nejčastější dotazy nebo protokoly chatu, zvolte pouze textovou RAG. Je to také lepší volba, když máte omezený rozpočet, záleží na latenci nebo nasazujete na menších modelech bez funkcí vizuální inteligence. Pouze textová RAG je bezpečnější výchozí volbou pro většinu tradičních aplikací pro chatboty a vyhledávání.

Lze kombinovat vizuální RAG a pouze textový RAG?

Ano, hybridní systémy RAG kombinují oba přístupy spouštěním paralelních vyhledávačů a slučováním výsledků nebo směrováním dotazů na příslušný vyhledávač na základě typu otázky. To vám přináší cenové výhody textového vyhledávání u jednoduchých dotazů a výhody přesnosti vizuálního vyhledávání u otázek s velkým množstvím dokumentů.

Jaké jsou nejlepší kritéria pro hodnocení vizuálního RAG?

Mezi běžné benchmarky patří DocVQA pro porozumění dokumentům, ChartQA pro otázky založené na grafech, MMMU pro multimodální uvažování a InfoVQA pro porozumění infografice. Pro textové RAG patří mezi oblíbené benchmarky Natural Questions, TriviaQA a HotpotQA.

Potřebuji multimodální LLM pro použití vizuálního RAG?

Ano, vizuální RAG vyžaduje jazykový model, který dokáže zpracovávat obrázky, jako například GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro nebo open-source alternativy jako LLaVA a Qwen-VL. Čistě textové modely, jako je základní GPT-4 nebo Llama 3, nemohou interpretovat načtené obrázky, takže fungují pouze s textovým RAG.

Rozhodnutí

Zvolte vizuální RAG, pokud vaše data obsahují hodně obrázků nebo pokud rozvržení, grafy a diagramy nesou kritický význam – je to jasný vítěz pro AI v dokumentech a vizuální odpovědi na otázky. Držte se pouze textového RAG pro tradiční znalostní báze, rychlejší nasazení a nižší náklady, zejména pokud je váš obsah již v čisté textové podobě. Mnoho týmů zjišťuje, že hybridní přístup funguje nejlépe, když nechá typ dotazu rozhodnout, jakou cestu vyhledávání zvolí.

Související srovnání

A/B testování u vydání obsahu vs. jednorázové vydání obsahu

A/B testování u vydání obsahu zahrnuje zavádění variant pro různé segmenty publika a měření výkonu, zatímco jednorázová vydání obsahu nabídnou jednu verzi všem najednou. Každý přístup vyhovuje jiným cílům, přičemž A/B testování upřednostňuje optimalizaci na základě dat a jednorázová vydání upřednostňují rychlost a jednoduchost.

A/B testování v modelovém obsluze vs. nasazení jednoho modelu

A/B testování v modelovém servisu směruje provoz mezi konkurenčními verzemi modelů za účelem měření reálného výkonu, zatímco nasazení jednoho modelu dodává jeden model všem uživatelům. Týmy si mezi nimi vybírají na základě tolerance rizika, objemu provozu a potřeby statistického ověření před plným nasazením.

Adaptace domény vs. školení v rámci domény

Toto srovnání analyzuje strategické volby v oblasti strojového učení mezi adaptací domény, která přenáší znalosti z označeného zdrojového prostředí do jiného cílového prostředí, a školením v doméně, které vytváří modely výhradně na datech získaných z přesného cílového nastavení nasazení.

Adaptivní inteligence vs. systémy s fixním chováním

Toto podrobné srovnání zkoumá architektonické rozdíly, provozní limity a reálný výkon adaptivních inteligentních systémů v porovnání s automatizačními systémy s pevným chováním. Zaměřujeme se na to, jak se systémy, které se neustále učí z nových environmentálních dat, vyrovnávají s rigidními, předvídatelnými rámci založenými na pravidlech.

Adaptivní načítání vs. statické načítání kanálů

Adaptivní vyhledávání dynamicky upravuje, jak a jaké informace systém načítá, na základě dotazu, zatímco statické vyhledávání se řídí pevnými pravidly bez ohledu na kontext. Oba systémy pohánějí moderní aplikace umělé inteligence, ale výrazně se liší ve flexibilitě, nákladech a přesnosti. Výběr mezi nimi závisí na složitosti pracovní zátěže a rozpočtu.