umetna inteligencakrpamultimodalna umetna inteligencapridobivanje-razširjeno-generiranjemagisterij pravaračunalniški vid
RAG z vizualnim kontekstom v primerjavi z RAG s kontekstom samo v besedilu
RAG z vizualnim kontekstom bogati jezikovne modele z iskanjem slik, grafikonov in diagramov poleg besedila, medtem ko se RAG, ki temelji samo na besedilu, zanaša izključno na pisne odlomke. Vizualni RAG blesti pri večmodalnih nalogah, kot sta razumevanje dokumentov in vizualno odgovarjanje na vprašanja, medtem ko je RAG, ki temelji samo na besedilu, še vedno enostavnejši, hitrejši in cenejši za uvedbo.
Poudarki
Visual RAG odpravlja napake optičnega prepoznavanja znakov (OCR) tako, da strani pridobi neposredno kot slike.
Samo besedilni RAG ostaja hitrejši in cenejši za izključno pisne baze znanja.
Večmodalni primerjalni testi dosledno dajejo prednost vizualnemu iskanju za naloge z grafikoni in dokumenti.
Hibridni cevovodi se pojavljajo kot praktična srednja pot za proizvodne sisteme.
Kaj je RAG z vizualnim kontekstom?
Pristop generiranja z razširjenim iskanjem, ki potegne slike, številke in vizualne podatke v odgovore modela osnovnega jezika.
Vizualni RAG sistemi pridobivajo tako besedilno kot vizualno vsebino iz baz znanja za podporo multimodalnemu sklepanju.
Modeli, kot so GPT-4V, Gemini in LLaVA, lahko obdelajo pridobljene slike neposredno znotraj svojih kontekstnih oken.
ColPali in ColQwen sta predstavila iskanje dokumentov, ki strani obravnava kot slike in tako zaobide tradicionalne cevovode OCR.
Vizualni RAG je še posebej učinkovit za razumevanje grafikonov, infografik, znanstvenih podatkov in skeniranih dokumentov.
Primerjalni testi, kot sta MMMU in DocVQA, kažejo merljive izboljšave, ko je vizualno iskanje dodano samo besedilnim cevovodom.
Kaj je RAG s kontekstom samo za besedilo?
Tradicionalna postavitev generiranja z razširjenim iskanjem, ki jezikovne modele utemeljuje le z uporabo pisnih odlomkov iz dokumentov.
RAG, ki deluje samo z besedilom, je populariziral prvotni članek Lewisa in sodelavcev iz leta 2020, ki je predstavil generiranje z razširjenim iskanjem.
Običajno uporablja modele vdelave, kot sta OpenAI text-embedding-3 ali BGE, za pretvorbo kosov v vektorske predstavitve.
Iskanje se običajno izvaja z iskanjem gostega vektorja, BM25 ali hibridnimi metodami po besedilnih korpusih.
Samo besedilni RAG poganja večino produkcijskih klepetalnih robotov, orodij za iskanje v podjetjih in pomočnikov za podporo strankam danes.
Okviri, kot so LangChain, LlamaIndex in Haystack, so bili prvotno zgrajeni okoli cevovodov za iskanje samo besedila.
Višje – potrebuje vizualne kodirnike in več prostora za shranjevanje
Nižje – enostavnejši cevovodi in indeksiranje
Stroški
Višje zaradi obdelave slik in uporabe žetonov
Nižje, zlasti pri majhnih delih besedila
Zakasnitev
Nekoliko višje od kodiranja slike
Na splošno hitreje
Odvisnost od OCR
Pogosto se odpravi z neposrednim iskanjem slik
Zahtevano za skenirane ali slikovne PDF-je
Primeri modelov
GPT-4V, Gemini 1.5, LLaVA, Qwen-VL
GPT-4, Claude, Mistral, Lama 3
Podrobna primerjava
Razlike v cevovodu za pridobivanje podatkov
RAG, ki uporablja samo besedilo, sledi dobro uhojeni poti: dokumenti so razdeljeni na dele, vdelani v vektorje in shranjeni v zbirki podatkov za iskanje podobnosti. Vizualni RAG uporablja bistveno drugačen pristop, saj kodira celotne strani ali slike kot vizualne vdelave, kar sistemu omogoča iskanje na podlagi postavitve, grafikonov in slik namesto le besed. Ta premik pomeni, da lahko vizualni RAG najde informacije, ki se nahajajo v grafih, tabelah ali ročno napisanih zapiskih, ki bi jih OCR lahko poškodoval.
Natančnost multimodalnih dokumentov
Ko dokumenti vsebujejo bogate vizualne elemente, kot so finančni grafikoni, inženirski diagrami ali medicinsko slikanje, vizualni RAG običajno prekaša pristope, ki uporabljajo samo besedilo. Študije primerjalnih testov DocVQA in ChartQA kažejo, da modeli, ki prejemajo pridobljene slike skupaj z besedilom, odgovarjajo na vprašanja pravilneje kot tisti, ki se zanašajo samo na izvlečeno besedilo. Pri izključno besedilnih virih, kot so objave na blogih ali repozitoriji kode, pa se RAG, ki uporablja samo besedilo, obnese prav tako dobro brez dodatnih stroškov.
Stroški in infrastruktura
Vizualni RAG zahteva več od vaše infrastrukture. Shranjevanje vdelanih slik zavzame več prostora na disku, vizualni kodirniki, kot je ColPali, za učinkovito delovanje zahtevajo grafične procesorje, vnašanje slik v jezikovne modele pa porabi veliko več žetonov kot golo besedilo. Samo besedilni RAG ostaja cenovno ugodna izbira za večino ekip, zlasti pri delu z velikimi korpusi člankov ali dokumentacije, ki ne potrebujejo vizualne interpretacije.
Primer uporabe
Izberite vizualni RAG, kadar vaša baza znanja vključuje skenirane PDF-je, diapozitive, kataloge izdelkov s fotografijami ali katero koli vsebino, kjer ima vizualna postavitev pomen. RAG, ki vsebuje samo besedilo, je odličen za wikije za podporo strankam, pravne pogodbe v navadnem besedilu, dokumentacijo kode in pogovorne agente, kjer sta hitrost in stroški pomembnejši od vizualne natančnosti. Številni produkcijski sistemi zdaj združujejo oboje, pri čemer za nekatere poizvedbe pridobivajo besedilo, za druge pa slike.
Združljivost modelov
Vizualni RAG zahteva multimodalni model, ki je sposoben obdelave slik, kot so GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro ali odprtokodne alternative, kot sta LLaVA in Qwen-VL. RAG, ki deluje samo z besedilom, deluje s praktično katerim koli jezikovnim modelom, vključno z manjšimi odprtokodnimi modeli, kot sta Llama 3 8B ali Mistral 7B, zaradi česar je dostopen tudi na skromni strojni opremi. Ta vrzel v združljivosti se zmanjšuje, saj vedno več modelov pridobiva zmogljivosti vida, vendar nastavitve, ki delujejo samo z besedilom, še vedno ponujajo širše možnosti uvajanja.
Prednosti in slabosti
RAG z vizualnim kontekstom
Prednosti
+Obvladuje grafikone in diagrame
+Zaobide omejitve optičnega prepoznavanja znakov
+Boljše razumevanje dokumentov
+Zajame informacije o postavitvi
Vse
−Višji stroški infrastrukture
−Počasnejša latenca pridobivanja
−Potrebuje multimodalne modele
−Večji prostor za shranjevanje
RAG s kontekstom samo za besedilo
Prednosti
+Enostavna namestitev
+Nižji obratovalni stroški
+Deluje s katerim koli programom LLM
+Zrel ekosistem orodij
Vse
−Težave z vizualnimi elementi
−Odvisno od kakovosti optičnega prepoznavanja znakov (OCR)
−Zgreši namige za postavitev
−Šibkejši pri dokumentih z veliko slikami
Pogoste zablode
Mit
Vizualni RAG popolnoma nadomesti RAG, ki prikazuje samo besedilo.
Resničnost
Vizualni RAG dopolnjuje in ne nadomešča pristopov, ki uporabljajo samo besedilo. Za izključno besedilne korpuse, kot so članki ali koda, je iskanje samo besedila še vedno hitrejše in enako natančno. Večina produkcijskih sistemov ima koristi od hibridne nastavitve, ki usmerja poizvedbe k ustreznemu iskalniku.
Mit
Samo besedilni RAG sploh ne more obdelati dokumentov s slikami.
Resničnost
RAG, ki deluje samo z besedilom, lahko še vedno obdela dokumente, ki vsebujejo slike, tako da najprej zažene optično prepoznavanje znakov (OCR) in indeksira izvlečeno besedilo. Kakovost je močno odvisna od cevovoda OCR, kompleksne postavitve pa pogosto izgubijo pomen, vendar je to uporaben pristop za številne primere uporabe.
Mit
Vizualni RAG vedno daje boljše odgovore kot besedilni RAG.
Resničnost
Vizualni RAG prekaša RAG samo za besedilo le, če so pridobljene vizualne informacije dejansko relevantne za poizvedbo. Pri vprašanjih o prozi, kodi ali strukturiranem besedilu lahko dodajanje slik povzroči šum in poveča stroške, ne da bi izboljšalo natančnost.
Mit
Za vizualno RAG potrebujete GPT-4V ali Gemini.
Resničnost
Odprtokodni modeli, kot so LLaVA, Qwen-VL, InternVL in MiniCPM-V, lahko učinkovito obvladujejo vizualne naloge RAG. Manjši vidni kodirniki v kombinaciji s programi za pridobivanje podatkov, kot je ColPali, delujejo na potrošniških grafičnih procesorjih, zaradi česar je vizualni RAG dostopen brez lastniških API-jev.
Mit
Vizualni RAG je predrag za produkcijsko uporabo.
Resničnost
Čeprav vizualna RAG dražja od samo besedilne, tehnike, kot so stiskanje slik, vdelava predpomnjenja in selektivno iskanje, ohranjajo stroške obvladljive. Za panoge, ki se ukvarjajo z dokumenti, kot so pravo, zdravstvo in finance, povečanje natančnosti pogosto upraviči stroške.
Pogosto zastavljena vprašanja
Kakšna je glavna razlika med vizualnim RAG-om in RAG-om, ki vsebuje samo besedilo?
Vizualni RAG pridobi slike, strani dokumentov in vizualno vsebino za odgovore modela osnovnega jezika, medtem ko besedilni RAG pridobi le pisne odlomke. Vizualni RAG uporablja večmodalne vdelave za razumevanje postavitve, grafikonov in slik, medtem ko se besedilni RAG zanaša na vdelave besedila in pogosto zahteva optično prepoznavanje znakov (OCR) za skenirane dokumente.
Je vizualni RAG natančnejši od besedilnega RAG-a?
Vizualni RAG je običajno natančnejši pri nalogah, ki vključujejo grafikone, diagrame, skenirane dokumente in vizualno odgovarjanje na vprašanja. Primerjalni testi, kot sta DocVQA in ChartQA, kažejo znatne izboljšave, ko je dodano vizualno iskanje. Pri izključno besedilnih poizvedbah pa oba pristopa delujeta podobno.
Ali lahko uporabljam vizualni RAG z odprtokodnimi modeli?
Da, odprtokodni modeli, kot so LLaVA, Qwen-VL, InternVL in MiniCPM-V, podpirajo vizualne delovne tokove RAG. V kombinaciji z iskalniki, kot sta ColPali ali ColQwen, lahko zgradite popolnoma odprtokodne vizualne RAG cevovode, ki delujejo na lokalnih grafičnih procesorjih, ne da bi bili odvisni od lastniških API-jev.
Ali vizualna RAG odpravlja potrebo po optičnem prepoznavanju znakov (OCR)?
Vizualni RAG pogosto odpravi OCR tako, da strani dokumenta pridobi neposredno kot slike in pusti, da jih interpretira model vizualnega jezika. S tem se izognemo napakam OCR pri kompleksnih postavitvah, rokopisu ali nizkokakovostnih skeniranjih. Nekateri hibridni sistemi še vedno uporabljajo OCR za indeksiranje metapodatkov, medtem ko se za dejansko vsebino zanašajo na vizualno iskanje.
Koliko stane vizualni RAG v primerjavi z RAG samo s tekstom?
Vizualni RAG običajno stane od 3 do 10-krat več kot besedilni RAG zaradi shranjevanja slik, izračunavanja vizualnega kodirnika in večje porabe žetonov pri posredovanju slik jezikovnim modelom. Stroški se razlikujejo glede na velikost dokumenta, pogostost pridobivanja in ali uporabljate gostovane API-je ali samostojno gostovane modele.
Kaj je ColPali in kako je povezan z vizualnim RAG?
ColPali je model za iskanje dokumentov, predstavljen leta 2024, ki strani dokumentov obravnava kot slike in za ustvarjanje vdelanih elementov uporablja vizualne kodirnike, kot je PaliGemma. Bil je pionir pri vizualnem pristopu k iskanju dokumentov, ki poganja številne sodobne vizualne RAG sisteme, zlasti za baze znanja, ki vsebujejo veliko PDF-jev.
Kdaj naj izberem samo besedilni RAG namesto vizualnega RAG-a?
Izberite RAG samo z besedilom, če vaša baza znanja vsebuje čisto besedilo, kot so članki, koda, pogosta vprašanja ali dnevniki klepetov. Prav tako je boljša izbira, kadar je proračun omejen, je pomembna zakasnitev ali če uvajate na manjših modelih brez zmogljivosti vida. RAG samo z besedilom je varnejša privzeta možnost za večino tradicionalnih aplikacij za klepetalne robote in iskanje.
Ali je mogoče vizualni RAG in samo besedilni RAG kombinirati?
Da, hibridni sistemi RAG združujejo oba pristopa z vzporednim izvajanjem iskalnikov in združevanjem rezultatov ali z usmerjanjem poizvedb k ustreznemu iskalniku glede na vrsto vprašanja. To vam daje stroškovne prednosti iskanja samo besedila za preproste poizvedbe in prednosti natančnosti vizualnega iskanja za vprašanja, ki vsebujejo veliko dokumentov.
Katera so najboljša merila za ocenjevanje vizualnega RAG-a?
Med pogostimi primerjalnimi testi so DocVQA za razumevanje dokumentov, ChartQA za vprašanja, ki temeljijo na grafikonih, MMMU za večmodalno sklepanje in InfoVQA za razumevanje infografik. Za besedilne RAG so priljubljeni primerjalni testi Natural Questions, TriviaQA in HotpotQA.
Ali potrebujem multimodalni LLM za uporabo vizualnega RAG-a?
Da, vizualni RAG zahteva jezikovni model, ki lahko obdeluje slike, kot so GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro ali odprtokodne alternative, kot sta LLaVA in Qwen-VL. Čisto besedilni modeli, kot sta osnovni GPT-4 ali Llama 3, ne morejo interpretirati pridobljenih slik, zato delujejo samo z RAG-om, ki deluje samo s tekstom.
Ocena
Izberite vizualni RAG, kadar so vaši podatki preobremenjeni s slikami ali kadar imajo postavitev, grafikoni in diagrami ključni pomen – je nedvomno zmagovalec za umetno inteligenco v dokumentih in vizualne odgovore na vprašanja. Za tradicionalne baze znanja, hitrejšo uvedbo in nižje stroške se držite besedilnega RAG, zlasti kadar je vaša vsebina že v čisti besedilni obliki. Številne ekipe ugotavljajo, da hibridni pristop deluje najbolje, saj vrsta poizvedbe same odloči, katero pot iskanja bo izbrala.