Visuaalse kontekstiga RAG vs ainult tekstipõhise kontekstiga RAG
Visuaalse kontekstiga RAG rikastab keelemudeleid, otsides teksti kõrvalt pilte, diagramme ja skeeme, samas kui ainult tekstipõhine RAG tugineb ainult kirjalikele lõikudele. Visuaalne RAG paistab silma multimodaalsete ülesannete, näiteks dokumentide mõistmise ja visuaalsete küsimustele vastamise puhul, samas kui ainult tekstipõhine RAG on endiselt lihtsam, kiirem ja odavam juurutada.
Esiletused
Visual RAG kõrvaldab OCR-vead, hankides lehed otse piltidena.
Ainult tekstipõhine RAG on puhtalt kirjutatud teadmusbaaside puhul kiirem ja odavam.
Multimodaalsed võrdlusnäitajad eelistavad diagrammide ja dokumentidega seotud ülesannete puhul järjepidevalt visuaalset otsingut.
Hübriidtorustikud on kujunemas tootmissüsteemide praktiliseks keskteeks.
Mis on RAG visuaalse kontekstiga?
Otsinguga laiendatud genereerimise lähenemisviis, mis tõmbab pilte, jooniseid ja visuaalseid andmeid põhikeele mudeli vastusteks.
Visuaalsed RAG-süsteemid hangivad teadmusbaasidest nii tekstilist kui ka visuaalset sisu, et toetada multimodaalset arutluskäiku.
Mudelid nagu GPT-4V, Gemini ja LLaVA saavad töödelda hangitud pilte otse oma kontekstiakendes.
ColPali ja ColQwen tutvustasid dokumentide otsingut, mis käsitleb lehti piltidena, möödudes traditsioonilistest OCR-kanalitest.
Visuaalne RAG on eriti tõhus diagrammide, infograafikute, teaduslike jooniste ja skannitud dokumentide mõistmiseks.
Võrdlusuuringud nagu MMMU ja DocVQA näitavad mõõdetavat kasu, kui visuaalne otsing lisatakse ainult tekstipõhistele torujuhtmetele.
Mis on RAG ainult teksti kontekstiga?
Traditsiooniline otsingu ja laiendatud genereerimise režiim, mis maandab keelemudeleid ainult dokumentide kirjalike lõikude abil.
Ainult tekstipõhine RAG sai tuntuks tänu Lewise jt 2020. aasta artiklile, milles tutvustati otsingu abil laiendatud genereerimist.
Tavaliselt kasutab see tükkide vektoresitusteks teisendamiseks manustamise mudeleid nagu OpenAI text-embedding-3 või BGE.
Otsing toimub tavaliselt tiheda vektorotsingu, BM25 või hübriidmeetodite abil tekstikorpuste kaudu.
Ainult tekstipõhine RAG toetab tänapäeval enamikku tootmisvestlusroboteid, ettevõtte otsingutööriistu ja klienditoe assistente.
Raamistikud nagu LangChain, LlamaIndex ja Haystack ehitati algselt ainult tekstipõhiste otsingutorustike ümber.
Kõrgem – vajab visuaalkoodreid ja rohkem salvestusruumi
Madalam – lihtsamad torujuhtmed ja indekseerimine
Maksumus
Kõrgem pilditöötluse ja žetoonide kasutamise tõttu
Madalam, eriti väikeste tekstilõikude puhul
Latentsusaeg
Veidi kõrgem pildi kodeeringust
Üldiselt kiirem
OCR-sõltuvus
Sageli kõrvaldatakse otsese pildiotsingu abil
Nõutav skannitud või pildipõhiste PDF-ide puhul
Näidismudelid
GPT-4V, Gemini 1.5, LLaVA, Qwen-VL
GPT-4, Claude, Mistral, Llama 3
Üksikasjalik võrdlus
Otsingutorustiku erinevused
Ainult tekstipõhine RAG järgib sissetallatud rada: dokumendid jagatakse tükkideks, manustatakse vektoritesse ja salvestatakse sarnasuse otsimiseks andmebaasi. Visuaalne RAG kasutab põhimõtteliselt teistsugust lähenemisviisi, kodeerides terveid lehti või pilte visuaalsete manustena, võimaldades süsteemil otsida teavet paigutuse, diagrammide ja jooniste, mitte ainult sõnade põhjal. See nihe tähendab, et visuaalne RAG suudab leida teavet graafikute, tabelite või käsitsi kirjutatud märkmete seest, mida OCR võib moonutada.
Multimodaalsete dokumentide täpsus
Kui dokumendid sisaldavad rikkalikke visuaale, näiteks finantsdiagramme, inseneridiagramme või meditsiinilisi kujutisi, kipub visuaalne RAG ületama ainult tekstipõhiseid lähenemisviise. DocVQA ja ChartQA võrdlusaluste uuringud näitavad, et mudelid, mis saavad koos tekstiga ka pilte, vastavad küsimustele õigemini kui need, mis tuginevad ainult ekstraheeritud tekstile. Puhttekstiliste allikate, näiteks ajaveebipostituste või koodihoidlate puhul toimib ainult tekstipõhine RAG aga sama hästi ilma lisakuludeta.
Kulud ja infrastruktuur
Visuaalne RAG nõuab teie infrastruktuurilt rohkem. Piltide manustamise salvestamine võtab rohkem kettaruumi, visuaalsed kodeerijad nagu ColPali vajavad tõhusaks tööks graafikaprotsessoreid ja piltide sisestamine keelemudelitesse tarbib palju rohkem märke kui lihttekst. Ainult tekstipõhine RAG jääb enamiku meeskondade jaoks eelarvesõbralikuks valikuks, eriti kui töötatakse suurte artiklite või dokumentatsiooni korpustega, mis ei vaja visuaalset tõlgendamist.
Kasutage korpuse sobivust
Valige visuaalne RAG, kui teie teadmusbaas sisaldab skannitud PDF-faile, slaidiesitlusi, fotodega tootekatalooge või mis tahes sisu, mille visuaalsel paigutusel on tähendus. Ainult tekstipõhine RAG sobib suurepäraselt klienditoe vikide, lihttekstina esitatud juriidiliste lepingute, koodidokumentatsiooni ja vestlusagentide jaoks, kus kiirus ja hind on visuaalsest täpsusest olulisemad. Paljud tootmissüsteemid ühendavad nüüd mõlemad, hankides mõne päringu puhul teksti ja teiste puhul pilte.
Mudelite ühilduvus
Visuaalne RAG nõuab multimodaalset mudelit, mis on võimeline pilte töötlema, näiteks GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro või avatud lähtekoodiga alternatiive nagu LLaVA ja Qwen-VL. Ainult tekstipõhine RAG töötab praktiliselt iga keelemudeliga, sealhulgas väiksemate avatud keelemudelitega nagu Llama 3 8B või Mistral 7B, muutes selle kättesaadavaks isegi tagasihoidliku riistvaraga. See ühilduvuslünk väheneb, kuna üha rohkem mudeleid omandab nägemisvõimalusi, kuid ainult tekstipõhised seadistused pakuvad tänapäeval endiselt laiemaid juurutamisvõimalusi.
Plussid ja miinused
RAG visuaalse kontekstiga
Eelised
+Käsitseb diagramme ja skeeme
+Möödub OCR-i piirangutest
+Parem dokumentide mõistmine
+Jäädvustab paigutuse teavet
Kinnitatud
−Kõrgemad taristukulud
−Aeglasem otsingu latentsusaeg
−Vajab multimodaalseid mudeleid
−Suurem salvestusruum
RAG ainult teksti kontekstiga
Eelised
+Lihtne juurutada
+Madalamad tegevuskulud
+Töötab iga LLM-iga
+Küps tööriistade ökosüsteem
Kinnitatud
−Visuaalidega on raskusi
−Sõltub OCR-i kvaliteedist
−Jätab paigutuse vihjed tähelepanuta
−Nõrgem piltiderohkete dokumentide puhul
Tavalised eksiarvamused
Müüt
Visuaalne RAG asendab täielikult ainult teksti sisaldava RAG-i.
Tõelisus
Visuaalne RAG täiendab, mitte ei asenda ainult tekstipõhiseid lähenemisviise. Puhttekstiliste korpuste, näiteks artiklite või koodi puhul on ainult tekstipõhine otsing endiselt kiirem ja sama täpne. Enamik tootmissüsteeme saab kasu hübriidseadistusest, mis suunab päringud sobivale otsijale.
Müüt
Ainult tekstipõhine RAG ei suuda piltidega dokumente üldse käsitleda.
Tõelisus
Ainult tekstipõhine RAG suudab ikkagi töödelda pilte sisaldavaid dokumente, käivitades esmalt OCR-i ja indekseerides ekstraheeritud teksti. Kvaliteet sõltub suuresti OCR-i torujuhtmest ja keerulised paigutused kaotavad sageli tähenduse, kuid see on paljude kasutusjuhtude jaoks toimiv lähenemisviis.
Müüt
Visuaalne RAG annab alati paremaid vastuseid kui ainult tekstipõhine RAG.
Tõelisus
Visuaalne RAG edestab ainult tekstipõhist RAG-i ainult siis, kui hangitud visuaalne teave on päringu jaoks tegelikult asjakohane. Proosa, koodi või struktureeritud teksti käsitlevate küsimuste puhul võib piltide lisamine tekitada müra ja suurendada kulusid täpsust parandamata.
Müüt
Visuaalse RAG-i tegemiseks vajate GPT-4V või Gemini.
Tõelisus
Avatud lähtekoodiga mudelid nagu LLaVA, Qwen-VL, InternVL ja MiniCPM-V saavad visuaalse RAG-i ülesannetega tõhusalt hakkama. Väiksemad nägemiskoodrid koos otsingumootoritega nagu ColPali töötavad tarbijatele mõeldud GPU-del, muutes visuaalse RAG-i kättesaadavaks ilma patenteeritud API-deta.
Müüt
Visual RAG on tootmiskasutuseks liiga kallis.
Tõelisus
Kuigi visuaalne RAG on kallim kui ainult teksti salvestamine, hoiavad sellised tehnikad nagu piltide tihendamine, vahemällu salvestamine ja valikuline otsing kulud kontrolli all. Dokumentiderohketes tööstusharudes, nagu õigus-, tervishoiu- ja finantsvaldkonnas, õigustab täpsuse suurenemine sageli kulusid.
Sageli küsitud küsimused
Mis on peamine erinevus visuaalse RAG-i ja ainult teksti sisaldava RAG-i vahel?
Visual RAG hangib pilte, dokumendilehti ja visuaalset sisu, et tuvastada keelemudeli vastuseid, samas kui ainult tekstipõhine RAG hangib ainult kirjalikke lõike. Visual RAG kasutab paigutuse, diagrammide ja jooniste mõistmiseks multimodaalseid manuseid, samas kui ainult tekstipõhine RAG tugineb teksti manustamisele ja nõuab skannitud dokumentide puhul sageli OCR-i.
Kas visuaalne RAG on täpsem kui ainult tekstipõhine RAG?
Visuaalne RAG kipub olema täpsem ülesannete puhul, mis hõlmavad diagramme, skeeme, skannitud dokumente ja visuaalseid küsimustele vastamisi. Võrdlustestid nagu DocVQA ja ChartQA näitavad märkimisväärseid parandusi visuaalse otsingu lisamisel. Puhttekstiliste päringute puhul toimivad mõlemad lähenemisviisid aga sarnaselt.
Kas ma saan visuaalset RAG-i kasutada avatud lähtekoodiga mudelitega?
Jah, avatud lähtekoodiga mudelid nagu LLaVA, Qwen-VL, InternVL ja MiniCPM-V toetavad visuaalseid RAG-töövooge. Koos otsingumootoritega nagu ColPali või ColQwen saate luua täielikult avatud lähtekoodiga visuaalseid RAG-torustikke, mis töötavad kohalikel GPU-del ilma patenteeritud API-sid kasutamata.
Kas visuaalne RAG välistab OCR-i vajaduse?
Visuaalne RAG välistab sageli OCR-i, otsides dokumendilehed otse piltidena ja lastes visuaalse keele mudelil neid tõlgendada. See väldib OCR-vigu keerukate küljenduste, käekirja või madala kvaliteediga skannimiste korral. Mõned hübriidsüsteemid kasutavad endiselt OCR-i metaandmete indekseerimiseks, tuginedes samal ajal tegeliku sisu visuaalsele otsimisele.
Kui palju maksab visuaalne RAG võrreldes ainult teksti sisaldava RAG-iga?
Visuaalne RAG maksab tavaliselt 3–10 korda rohkem kui ainult teksti sisaldav RAG, kuna piltide salvestamine, visuaalkoodri arvutusvõimsus ja suurem tokenite kasutamine keelemudelitele piltide edastamisel. Kulud varieeruvad sõltuvalt dokumendi suurusest, otsingu sagedusest ja sellest, kas kasutate hostitud API-sid või ise hostitud mudeleid.
Mis on ColPali ja kuidas see on seotud visuaalse RAG-iga?
ColPali on 2024. aastal kasutusele võetud dokumentide hankimise mudel, mis käsitleb dokumendilehti piltidena ja kasutab manuste loomiseks visuaalseid kodeerijaid, näiteks PaliGemma. See oli teerajajaks visuaalse dokumentide hankimise lähenemisviisis, mis toetab paljusid tänapäevaseid visuaalseid RAG-süsteeme, eriti PDF-mahukate teadmusbaaside puhul.
Millal peaksin eelistama ainult tekstipõhist RAG-i visuaalsele RAG-ile?
Valige ainult tekstipõhine RAG, kui teie teadmusbaas koosneb puhtast tekstist, näiteks artiklitest, koodist, KKK-st või vestluslogidest. See on parem valik ka siis, kui eelarve on piiratud, latentsus on oluline või kui juurutate väiksematel mudelitel ilma visioonivõimalusteta. Ainult tekstipõhine RAG on turvalisem vaikesäte enamiku traditsiooniliste vestlusrobotite ja otsingurakenduste jaoks.
Kas visuaalset RAG-i ja ainult teksti sisaldavat RAG-i saab kombineerida?
Jah, hübriidsed RAG-süsteemid ühendavad mõlemad lähenemisviisid, käitades paralleelseid otsinguid ja liites tulemusi või suunates päringud küsimuse tüübi põhjal sobivale otsingule. See annab teile lihtsate päringute puhul tekstipõhise otsingu kulueelised ja dokumentiderohkete küsimuste puhul visuaalse otsingu täpsuse eelised.
Millised on visuaalse RAG-i hindamise parimad võrdlusalused?
Levinud võrdlusaluste hulka kuuluvad DocVQA dokumentide mõistmiseks, ChartQA diagrammipõhiste küsimuste jaoks, MMMU multimodaalse arutluskäigu jaoks ja InfoVQA infograafiku mõistmiseks. Ainult tekstipõhise RAG puhul on populaarsete võrdlusaluste hulka Natural Questions, TriviaQA ja HotpotQA.
Kas visuaalse RAG-i kasutamiseks on vaja multimodaalset LLM-i?
Jah, visuaalne RAG nõuab keelemudelit, mis suudab pilte töödelda, näiteks GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro või avatud lähtekoodiga alternatiive nagu LLaVA ja Qwen-VL. Puhttekstimudelid, näiteks baas-GPT-4 või Llama 3, ei suuda hangitud pilte tõlgendada, seega töötavad need ainult tekstipõhise RAG-iga.
Otsus
Valige visuaalne RAG, kui teie andmed on piltiderohked või kui paigutusel, diagrammidel ja skeemidel on kriitiline tähendus – see on selge võitja dokumentide tehisintellekti ja visuaalsete küsimustele vastuste jaoks. Traditsiooniliste teadmusbaaside, kiirema juurutamise ja madalamate kulude korral, eriti kui teie sisu on juba puhta teksti kujul, kasutage ainult tekstipõhist RAG-i. Paljud meeskonnad leiavad, et hübriidlähenemine toimib kõige paremini, lastes päringutüübil otsustada, millist otsinguteed kasutada.