umetna inteligencakrpamultimodalna umetna inteligencapridobivanje-razširjeno-generiranjemagisterij pravaračunalniški vid

RAG z vizualnim kontekstom v primerjavi z RAG s kontekstom samo v besedilu

RAG z vizualnim kontekstom bogati jezikovne modele z iskanjem slik, grafikonov in diagramov poleg besedila, medtem ko se RAG, ki temelji samo na besedilu, zanaša izključno na pisne odlomke. Vizualni RAG blesti pri večmodalnih nalogah, kot sta razumevanje dokumentov in vizualno odgovarjanje na vprašanja, medtem ko je RAG, ki temelji samo na besedilu, še vedno enostavnejši, hitrejši in cenejši za uvedbo.

Poudarki

Visual RAG odpravlja napake optičnega prepoznavanja znakov (OCR) tako, da strani pridobi neposredno kot slike.
Samo besedilni RAG ostaja hitrejši in cenejši za izključno pisne baze znanja.
Večmodalni primerjalni testi dosledno dajejo prednost vizualnemu iskanju za naloge z grafikoni in dokumenti.
Hibridni cevovodi se pojavljajo kot praktična srednja pot za proizvodne sisteme.

Kaj je RAG z vizualnim kontekstom?

Pristop generiranja z razširjenim iskanjem, ki potegne slike, številke in vizualne podatke v odgovore modela osnovnega jezika.

Vizualni RAG sistemi pridobivajo tako besedilno kot vizualno vsebino iz baz znanja za podporo multimodalnemu sklepanju.
Modeli, kot so GPT-4V, Gemini in LLaVA, lahko obdelajo pridobljene slike neposredno znotraj svojih kontekstnih oken.
ColPali in ColQwen sta predstavila iskanje dokumentov, ki strani obravnava kot slike in tako zaobide tradicionalne cevovode OCR.
Vizualni RAG je še posebej učinkovit za razumevanje grafikonov, infografik, znanstvenih podatkov in skeniranih dokumentov.
Primerjalni testi, kot sta MMMU in DocVQA, kažejo merljive izboljšave, ko je vizualno iskanje dodano samo besedilnim cevovodom.

Kaj je RAG s kontekstom samo za besedilo?

Tradicionalna postavitev generiranja z razširjenim iskanjem, ki jezikovne modele utemeljuje le z uporabo pisnih odlomkov iz dokumentov.

RAG, ki deluje samo z besedilom, je populariziral prvotni članek Lewisa in sodelavcev iz leta 2020, ki je predstavil generiranje z razširjenim iskanjem.
Običajno uporablja modele vdelave, kot sta OpenAI text-embedding-3 ali BGE, za pretvorbo kosov v vektorske predstavitve.
Iskanje se običajno izvaja z iskanjem gostega vektorja, BM25 ali hibridnimi metodami po besedilnih korpusih.
Samo besedilni RAG poganja večino produkcijskih klepetalnih robotov, orodij za iskanje v podjetjih in pomočnikov za podporo strankam danes.
Okviri, kot so LangChain, LlamaIndex in Haystack, so bili prvotno zgrajeni okoli cevovodov za iskanje samo besedila.

Primerjalna tabela

Funkcija	RAG z vizualnim kontekstom	RAG s kontekstom samo za besedilo
Vhodna modaliteta	Besedilo + Slike + Vizualni podatki	Samo besedilo
Metoda pridobivanja	Večmodalne vgradnje (npr. ColPali, CLIP)	Besedilne vdelave (npr. BGE, OpenAI ada)
Najboljše za	Grafikoni, diagrami, skenirani dokumenti, vizualno zagotavljanje kakovosti	Članki, pogosta vprašanja, koda, strukturirano besedilo
Kompleksnost	Višje – potrebuje vizualne kodirnike in več prostora za shranjevanje	Nižje – enostavnejši cevovodi in indeksiranje
Stroški	Višje zaradi obdelave slik in uporabe žetonov	Nižje, zlasti pri majhnih delih besedila
Zakasnitev	Nekoliko višje od kodiranja slike	Na splošno hitreje
Odvisnost od OCR	Pogosto se odpravi z neposrednim iskanjem slik	Zahtevano za skenirane ali slikovne PDF-je
Primeri modelov	GPT-4V, Gemini 1.5, LLaVA, Qwen-VL	GPT-4, Claude, Mistral, Lama 3

Podrobna primerjava

Razlike v cevovodu za pridobivanje podatkov

RAG, ki uporablja samo besedilo, sledi dobro uhojeni poti: dokumenti so razdeljeni na dele, vdelani v vektorje in shranjeni v zbirki podatkov za iskanje podobnosti. Vizualni RAG uporablja bistveno drugačen pristop, saj kodira celotne strani ali slike kot vizualne vdelave, kar sistemu omogoča iskanje na podlagi postavitve, grafikonov in slik namesto le besed. Ta premik pomeni, da lahko vizualni RAG najde informacije, ki se nahajajo v grafih, tabelah ali ročno napisanih zapiskih, ki bi jih OCR lahko poškodoval.

Natančnost multimodalnih dokumentov

Ko dokumenti vsebujejo bogate vizualne elemente, kot so finančni grafikoni, inženirski diagrami ali medicinsko slikanje, vizualni RAG običajno prekaša pristope, ki uporabljajo samo besedilo. Študije primerjalnih testov DocVQA in ChartQA kažejo, da modeli, ki prejemajo pridobljene slike skupaj z besedilom, odgovarjajo na vprašanja pravilneje kot tisti, ki se zanašajo samo na izvlečeno besedilo. Pri izključno besedilnih virih, kot so objave na blogih ali repozitoriji kode, pa se RAG, ki uporablja samo besedilo, obnese prav tako dobro brez dodatnih stroškov.

Stroški in infrastruktura

Vizualni RAG zahteva več od vaše infrastrukture. Shranjevanje vdelanih slik zavzame več prostora na disku, vizualni kodirniki, kot je ColPali, za učinkovito delovanje zahtevajo grafične procesorje, vnašanje slik v jezikovne modele pa porabi veliko več žetonov kot golo besedilo. Samo besedilni RAG ostaja cenovno ugodna izbira za večino ekip, zlasti pri delu z velikimi korpusi člankov ali dokumentacije, ki ne potrebujejo vizualne interpretacije.

Primer uporabe

Izberite vizualni RAG, kadar vaša baza znanja vključuje skenirane PDF-je, diapozitive, kataloge izdelkov s fotografijami ali katero koli vsebino, kjer ima vizualna postavitev pomen. RAG, ki vsebuje samo besedilo, je odličen za wikije za podporo strankam, pravne pogodbe v navadnem besedilu, dokumentacijo kode in pogovorne agente, kjer sta hitrost in stroški pomembnejši od vizualne natančnosti. Številni produkcijski sistemi zdaj združujejo oboje, pri čemer za nekatere poizvedbe pridobivajo besedilo, za druge pa slike.

Združljivost modelov

Vizualni RAG zahteva multimodalni model, ki je sposoben obdelave slik, kot so GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro ali odprtokodne alternative, kot sta LLaVA in Qwen-VL. RAG, ki deluje samo z besedilom, deluje s praktično katerim koli jezikovnim modelom, vključno z manjšimi odprtokodnimi modeli, kot sta Llama 3 8B ali Mistral 7B, zaradi česar je dostopen tudi na skromni strojni opremi. Ta vrzel v združljivosti se zmanjšuje, saj vedno več modelov pridobiva zmogljivosti vida, vendar nastavitve, ki delujejo samo z besedilom, še vedno ponujajo širše možnosti uvajanja.

Prednosti in slabosti

RAG z vizualnim kontekstom

Prednosti

+ Obvladuje grafikone in diagrame
+ Zaobide omejitve optičnega prepoznavanja znakov
+ Boljše razumevanje dokumentov
+ Zajame informacije o postavitvi

Vse

− Višji stroški infrastrukture
− Počasnejša latenca pridobivanja
− Potrebuje multimodalne modele
− Večji prostor za shranjevanje

RAG s kontekstom samo za besedilo

Prednosti

+ Enostavna namestitev
+ Nižji obratovalni stroški
+ Deluje s katerim koli programom LLM
+ Zrel ekosistem orodij

Vse

− Težave z vizualnimi elementi
− Odvisno od kakovosti optičnega prepoznavanja znakov (OCR)
− Zgreši namige za postavitev
− Šibkejši pri dokumentih z veliko slikami

Pogoste zablode

Mit

Vizualni RAG popolnoma nadomesti RAG, ki prikazuje samo besedilo.

Resničnost

Vizualni RAG dopolnjuje in ne nadomešča pristopov, ki uporabljajo samo besedilo. Za izključno besedilne korpuse, kot so članki ali koda, je iskanje samo besedila še vedno hitrejše in enako natančno. Večina produkcijskih sistemov ima koristi od hibridne nastavitve, ki usmerja poizvedbe k ustreznemu iskalniku.

Mit

Samo besedilni RAG sploh ne more obdelati dokumentov s slikami.

Resničnost

RAG, ki deluje samo z besedilom, lahko še vedno obdela dokumente, ki vsebujejo slike, tako da najprej zažene optično prepoznavanje znakov (OCR) in indeksira izvlečeno besedilo. Kakovost je močno odvisna od cevovoda OCR, kompleksne postavitve pa pogosto izgubijo pomen, vendar je to uporaben pristop za številne primere uporabe.

Mit

Vizualni RAG vedno daje boljše odgovore kot besedilni RAG.

Resničnost

Vizualni RAG prekaša RAG samo za besedilo le, če so pridobljene vizualne informacije dejansko relevantne za poizvedbo. Pri vprašanjih o prozi, kodi ali strukturiranem besedilu lahko dodajanje slik povzroči šum in poveča stroške, ne da bi izboljšalo natančnost.

Mit

Za vizualno RAG potrebujete GPT-4V ali Gemini.

Resničnost

Odprtokodni modeli, kot so LLaVA, Qwen-VL, InternVL in MiniCPM-V, lahko učinkovito obvladujejo vizualne naloge RAG. Manjši vidni kodirniki v kombinaciji s programi za pridobivanje podatkov, kot je ColPali, delujejo na potrošniških grafičnih procesorjih, zaradi česar je vizualni RAG dostopen brez lastniških API-jev.

Mit

Vizualni RAG je predrag za produkcijsko uporabo.

Resničnost

Čeprav vizualna RAG dražja od samo besedilne, tehnike, kot so stiskanje slik, vdelava predpomnjenja in selektivno iskanje, ohranjajo stroške obvladljive. Za panoge, ki se ukvarjajo z dokumenti, kot so pravo, zdravstvo in finance, povečanje natančnosti pogosto upraviči stroške.

Pogosto zastavljena vprašanja

Kakšna je glavna razlika med vizualnim RAG-om in RAG-om, ki vsebuje samo besedilo?

Vizualni RAG pridobi slike, strani dokumentov in vizualno vsebino za odgovore modela osnovnega jezika, medtem ko besedilni RAG pridobi le pisne odlomke. Vizualni RAG uporablja večmodalne vdelave za razumevanje postavitve, grafikonov in slik, medtem ko se besedilni RAG zanaša na vdelave besedila in pogosto zahteva optično prepoznavanje znakov (OCR) za skenirane dokumente.

Je vizualni RAG natančnejši od besedilnega RAG-a?

Vizualni RAG je običajno natančnejši pri nalogah, ki vključujejo grafikone, diagrame, skenirane dokumente in vizualno odgovarjanje na vprašanja. Primerjalni testi, kot sta DocVQA in ChartQA, kažejo znatne izboljšave, ko je dodano vizualno iskanje. Pri izključno besedilnih poizvedbah pa oba pristopa delujeta podobno.

Ali lahko uporabljam vizualni RAG z odprtokodnimi modeli?

Da, odprtokodni modeli, kot so LLaVA, Qwen-VL, InternVL in MiniCPM-V, podpirajo vizualne delovne tokove RAG. V kombinaciji z iskalniki, kot sta ColPali ali ColQwen, lahko zgradite popolnoma odprtokodne vizualne RAG cevovode, ki delujejo na lokalnih grafičnih procesorjih, ne da bi bili odvisni od lastniških API-jev.

Ali vizualna RAG odpravlja potrebo po optičnem prepoznavanju znakov (OCR)?

Vizualni RAG pogosto odpravi OCR tako, da strani dokumenta pridobi neposredno kot slike in pusti, da jih interpretira model vizualnega jezika. S tem se izognemo napakam OCR pri kompleksnih postavitvah, rokopisu ali nizkokakovostnih skeniranjih. Nekateri hibridni sistemi še vedno uporabljajo OCR za indeksiranje metapodatkov, medtem ko se za dejansko vsebino zanašajo na vizualno iskanje.

Koliko stane vizualni RAG v primerjavi z RAG samo s tekstom?

Vizualni RAG običajno stane od 3 do 10-krat več kot besedilni RAG zaradi shranjevanja slik, izračunavanja vizualnega kodirnika in večje porabe žetonov pri posredovanju slik jezikovnim modelom. Stroški se razlikujejo glede na velikost dokumenta, pogostost pridobivanja in ali uporabljate gostovane API-je ali samostojno gostovane modele.

Kaj je ColPali in kako je povezan z vizualnim RAG?

ColPali je model za iskanje dokumentov, predstavljen leta 2024, ki strani dokumentov obravnava kot slike in za ustvarjanje vdelanih elementov uporablja vizualne kodirnike, kot je PaliGemma. Bil je pionir pri vizualnem pristopu k iskanju dokumentov, ki poganja številne sodobne vizualne RAG sisteme, zlasti za baze znanja, ki vsebujejo veliko PDF-jev.

Kdaj naj izberem samo besedilni RAG namesto vizualnega RAG-a?

Izberite RAG samo z besedilom, če vaša baza znanja vsebuje čisto besedilo, kot so članki, koda, pogosta vprašanja ali dnevniki klepetov. Prav tako je boljša izbira, kadar je proračun omejen, je pomembna zakasnitev ali če uvajate na manjših modelih brez zmogljivosti vida. RAG samo z besedilom je varnejša privzeta možnost za večino tradicionalnih aplikacij za klepetalne robote in iskanje.

Ali je mogoče vizualni RAG in samo besedilni RAG kombinirati?

Da, hibridni sistemi RAG združujejo oba pristopa z vzporednim izvajanjem iskalnikov in združevanjem rezultatov ali z usmerjanjem poizvedb k ustreznemu iskalniku glede na vrsto vprašanja. To vam daje stroškovne prednosti iskanja samo besedila za preproste poizvedbe in prednosti natančnosti vizualnega iskanja za vprašanja, ki vsebujejo veliko dokumentov.

Katera so najboljša merila za ocenjevanje vizualnega RAG-a?

Med pogostimi primerjalnimi testi so DocVQA za razumevanje dokumentov, ChartQA za vprašanja, ki temeljijo na grafikonih, MMMU za večmodalno sklepanje in InfoVQA za razumevanje infografik. Za besedilne RAG so priljubljeni primerjalni testi Natural Questions, TriviaQA in HotpotQA.

Ali potrebujem multimodalni LLM za uporabo vizualnega RAG-a?

Da, vizualni RAG zahteva jezikovni model, ki lahko obdeluje slike, kot so GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro ali odprtokodne alternative, kot sta LLaVA in Qwen-VL. Čisto besedilni modeli, kot sta osnovni GPT-4 ali Llama 3, ne morejo interpretirati pridobljenih slik, zato delujejo samo z RAG-om, ki deluje samo s tekstom.

Ocena

Izberite vizualni RAG, kadar so vaši podatki preobremenjeni s slikami ali kadar imajo postavitev, grafikoni in diagrami ključni pomen – je nedvomno zmagovalec za umetno inteligenco v dokumentih in vizualne odgovore na vprašanja. Za tradicionalne baze znanja, hitrejšo uvedbo in nižje stroške se držite besedilnega RAG, zlasti kadar je vaša vsebina že v čisti besedilni obliki. Številne ekipe ugotavljajo, da hibridni pristop deluje najbolje, saj vrsta poizvedbe same odloči, katero pot iskanja bo izbrala.

Povezane primerjave

A/B testiranje pri izdajah vsebin v primerjavi z enkratnimi izdajami vsebin

A/B testiranje pri izdajah vsebin vključuje uvajanje različic za različne segmente občinstva in merjenje uspešnosti, medtem ko enkratne izdaje vsebin hkrati vsem ponudijo eno različico. Vsak pristop ustreza različnim ciljem, pri čemer A/B testiranje daje prednost optimizaciji, ki temelji na podatkih, enkratne izdaje pa dajejo prednost hitrosti in preprostosti.

A/B testiranje pri streženju modelov v primerjavi z uvajanjem enega modela

A/B testiranje pri streženju modelov usmerja promet med konkurenčnimi različicami modelov za merjenje učinkovitosti v resničnem svetu, medtem ko uvedba enega modela vsem uporabnikom dostavi en model. Ekipe izbirajo med njimi glede na toleranco tveganja, količino prometa in potrebo po statistični potrditvi pred popolno uvedbo.

Agenti umetne inteligence v primerjavi s tradicionalnimi spletnimi aplikacijami

Agenti umetne inteligence so avtonomni, ciljno usmerjeni sistemi, ki lahko načrtujejo, sklepajo in izvajajo naloge v različnih orodjih, medtem ko tradicionalne spletne aplikacije sledijo fiksnim delovnim procesom, ki jih vodijo uporabniki. Primerjava poudarja premik od statičnih vmesnikov k prilagodljivim, kontekstualno ozaveščenim sistemom, ki lahko proaktivno pomagajo uporabnikom, avtomatizirajo odločitve in dinamično komunicirajo med več storitvami.

Agenti, ki temeljijo na pravilih, v primerjavi z agenti, ki temeljijo na učenju

Ta arhitekturna primerjava primerja deterministično inženirstvo agentov, ki temeljijo na pravilih, s prilagodljivo naravo učnih agentov, ki temeljijo na podatkih, ter ocenjuje njihovo uporabnost v resničnem svetu, omejitve skaliranja in delovanje v negotovosti.

Agentski sistemi umetne inteligence v primerjavi s tradicionalnimi klepetalniki za LLM

Agentni sistemi umetne inteligence lahko načrtujejo, izvajajo večstopenjske naloge in avtonomno komunicirajo z zunanjimi orodji, medtem ko tradicionalni klepetalni roboti LLM primarno ustvarjajo besedilne odgovore v enem samem pogovornem koraku. Ključna razlika je v agenciji: agentni sistemi delujejo na podlagi ciljev, medtem ko klepetalni roboti reagirajo na pozive.