tehisintellektkaltsmultimodaalne tehisintellektotsingu-laiendatud-generatsioonLLMarvutinägemine

Visuaalse kontekstiga RAG vs ainult tekstipõhise kontekstiga RAG

Visuaalse kontekstiga RAG rikastab keelemudeleid, otsides teksti kõrvalt pilte, diagramme ja skeeme, samas kui ainult tekstipõhine RAG tugineb ainult kirjalikele lõikudele. Visuaalne RAG paistab silma multimodaalsete ülesannete, näiteks dokumentide mõistmise ja visuaalsete küsimustele vastamise puhul, samas kui ainult tekstipõhine RAG on endiselt lihtsam, kiirem ja odavam juurutada.

Esiletused

Visual RAG kõrvaldab OCR-vead, hankides lehed otse piltidena.
Ainult tekstipõhine RAG on puhtalt kirjutatud teadmusbaaside puhul kiirem ja odavam.
Multimodaalsed võrdlusnäitajad eelistavad diagrammide ja dokumentidega seotud ülesannete puhul järjepidevalt visuaalset otsingut.
Hübriidtorustikud on kujunemas tootmissüsteemide praktiliseks keskteeks.

Mis on RAG visuaalse kontekstiga?

Otsinguga laiendatud genereerimise lähenemisviis, mis tõmbab pilte, jooniseid ja visuaalseid andmeid põhikeele mudeli vastusteks.

Visuaalsed RAG-süsteemid hangivad teadmusbaasidest nii tekstilist kui ka visuaalset sisu, et toetada multimodaalset arutluskäiku.
Mudelid nagu GPT-4V, Gemini ja LLaVA saavad töödelda hangitud pilte otse oma kontekstiakendes.
ColPali ja ColQwen tutvustasid dokumentide otsingut, mis käsitleb lehti piltidena, möödudes traditsioonilistest OCR-kanalitest.
Visuaalne RAG on eriti tõhus diagrammide, infograafikute, teaduslike jooniste ja skannitud dokumentide mõistmiseks.
Võrdlusuuringud nagu MMMU ja DocVQA näitavad mõõdetavat kasu, kui visuaalne otsing lisatakse ainult tekstipõhistele torujuhtmetele.

Mis on RAG ainult teksti kontekstiga?

Traditsiooniline otsingu ja laiendatud genereerimise režiim, mis maandab keelemudeleid ainult dokumentide kirjalike lõikude abil.

Ainult tekstipõhine RAG sai tuntuks tänu Lewise jt 2020. aasta artiklile, milles tutvustati otsingu abil laiendatud genereerimist.
Tavaliselt kasutab see tükkide vektoresitusteks teisendamiseks manustamise mudeleid nagu OpenAI text-embedding-3 või BGE.
Otsing toimub tavaliselt tiheda vektorotsingu, BM25 või hübriidmeetodite abil tekstikorpuste kaudu.
Ainult tekstipõhine RAG toetab tänapäeval enamikku tootmisvestlusroboteid, ettevõtte otsingutööriistu ja klienditoe assistente.
Raamistikud nagu LangChain, LlamaIndex ja Haystack ehitati algselt ainult tekstipõhiste otsingutorustike ümber.

Võrdlustabel

Funktsioon	RAG visuaalse kontekstiga	RAG ainult teksti kontekstiga
Sisestusviis	Tekst + pildid + visuaalsed andmed	Ainult tekst
Taaskasutusmeetod	Multimodaalsed manustamised (nt ColPali, CLIP)	Teksti manustamine (nt BGE, OpenAI ada)
Parima jaoks	Diagrammid, diagrammid, skannitud dokumendid, visuaalne kvaliteedikontroll	Artiklid, KKK, kood, struktureeritud tekst
Keerukus	Kõrgem – vajab visuaalkoodreid ja rohkem salvestusruumi	Madalam – lihtsamad torujuhtmed ja indekseerimine
Maksumus	Kõrgem pilditöötluse ja žetoonide kasutamise tõttu	Madalam, eriti väikeste tekstilõikude puhul
Latentsusaeg	Veidi kõrgem pildi kodeeringust	Üldiselt kiirem
OCR-sõltuvus	Sageli kõrvaldatakse otsese pildiotsingu abil	Nõutav skannitud või pildipõhiste PDF-ide puhul
Näidismudelid	GPT-4V, Gemini 1.5, LLaVA, Qwen-VL	GPT-4, Claude, Mistral, Llama 3

Üksikasjalik võrdlus

Otsingutorustiku erinevused

Ainult tekstipõhine RAG järgib sissetallatud rada: dokumendid jagatakse tükkideks, manustatakse vektoritesse ja salvestatakse sarnasuse otsimiseks andmebaasi. Visuaalne RAG kasutab põhimõtteliselt teistsugust lähenemisviisi, kodeerides terveid lehti või pilte visuaalsete manustena, võimaldades süsteemil otsida teavet paigutuse, diagrammide ja jooniste, mitte ainult sõnade põhjal. See nihe tähendab, et visuaalne RAG suudab leida teavet graafikute, tabelite või käsitsi kirjutatud märkmete seest, mida OCR võib moonutada.

Multimodaalsete dokumentide täpsus

Kui dokumendid sisaldavad rikkalikke visuaale, näiteks finantsdiagramme, inseneridiagramme või meditsiinilisi kujutisi, kipub visuaalne RAG ületama ainult tekstipõhiseid lähenemisviise. DocVQA ja ChartQA võrdlusaluste uuringud näitavad, et mudelid, mis saavad koos tekstiga ka pilte, vastavad küsimustele õigemini kui need, mis tuginevad ainult ekstraheeritud tekstile. Puhttekstiliste allikate, näiteks ajaveebipostituste või koodihoidlate puhul toimib ainult tekstipõhine RAG aga sama hästi ilma lisakuludeta.

Kulud ja infrastruktuur

Visuaalne RAG nõuab teie infrastruktuurilt rohkem. Piltide manustamise salvestamine võtab rohkem kettaruumi, visuaalsed kodeerijad nagu ColPali vajavad tõhusaks tööks graafikaprotsessoreid ja piltide sisestamine keelemudelitesse tarbib palju rohkem märke kui lihttekst. Ainult tekstipõhine RAG jääb enamiku meeskondade jaoks eelarvesõbralikuks valikuks, eriti kui töötatakse suurte artiklite või dokumentatsiooni korpustega, mis ei vaja visuaalset tõlgendamist.

Kasutage korpuse sobivust

Valige visuaalne RAG, kui teie teadmusbaas sisaldab skannitud PDF-faile, slaidiesitlusi, fotodega tootekatalooge või mis tahes sisu, mille visuaalsel paigutusel on tähendus. Ainult tekstipõhine RAG sobib suurepäraselt klienditoe vikide, lihttekstina esitatud juriidiliste lepingute, koodidokumentatsiooni ja vestlusagentide jaoks, kus kiirus ja hind on visuaalsest täpsusest olulisemad. Paljud tootmissüsteemid ühendavad nüüd mõlemad, hankides mõne päringu puhul teksti ja teiste puhul pilte.

Mudelite ühilduvus

Visuaalne RAG nõuab multimodaalset mudelit, mis on võimeline pilte töötlema, näiteks GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro või avatud lähtekoodiga alternatiive nagu LLaVA ja Qwen-VL. Ainult tekstipõhine RAG töötab praktiliselt iga keelemudeliga, sealhulgas väiksemate avatud keelemudelitega nagu Llama 3 8B või Mistral 7B, muutes selle kättesaadavaks isegi tagasihoidliku riistvaraga. See ühilduvuslünk väheneb, kuna üha rohkem mudeleid omandab nägemisvõimalusi, kuid ainult tekstipõhised seadistused pakuvad tänapäeval endiselt laiemaid juurutamisvõimalusi.

Plussid ja miinused

RAG visuaalse kontekstiga

Eelised

+ Käsitseb diagramme ja skeeme
+ Möödub OCR-i piirangutest
+ Parem dokumentide mõistmine
+ Jäädvustab paigutuse teavet

Kinnitatud

− Kõrgemad taristukulud
− Aeglasem otsingu latentsusaeg
− Vajab multimodaalseid mudeleid
− Suurem salvestusruum

RAG ainult teksti kontekstiga

Eelised

+ Lihtne juurutada
+ Madalamad tegevuskulud
+ Töötab iga LLM-iga
+ Küps tööriistade ökosüsteem

Kinnitatud

− Visuaalidega on raskusi
− Sõltub OCR-i kvaliteedist
− Jätab paigutuse vihjed tähelepanuta
− Nõrgem piltiderohkete dokumentide puhul

Tavalised eksiarvamused

Müüt

Visuaalne RAG asendab täielikult ainult teksti sisaldava RAG-i.

Tõelisus

Visuaalne RAG täiendab, mitte ei asenda ainult tekstipõhiseid lähenemisviise. Puhttekstiliste korpuste, näiteks artiklite või koodi puhul on ainult tekstipõhine otsing endiselt kiirem ja sama täpne. Enamik tootmissüsteeme saab kasu hübriidseadistusest, mis suunab päringud sobivale otsijale.

Müüt

Ainult tekstipõhine RAG ei suuda piltidega dokumente üldse käsitleda.

Tõelisus

Ainult tekstipõhine RAG suudab ikkagi töödelda pilte sisaldavaid dokumente, käivitades esmalt OCR-i ja indekseerides ekstraheeritud teksti. Kvaliteet sõltub suuresti OCR-i torujuhtmest ja keerulised paigutused kaotavad sageli tähenduse, kuid see on paljude kasutusjuhtude jaoks toimiv lähenemisviis.

Müüt

Visuaalne RAG annab alati paremaid vastuseid kui ainult tekstipõhine RAG.

Tõelisus

Visuaalne RAG edestab ainult tekstipõhist RAG-i ainult siis, kui hangitud visuaalne teave on päringu jaoks tegelikult asjakohane. Proosa, koodi või struktureeritud teksti käsitlevate küsimuste puhul võib piltide lisamine tekitada müra ja suurendada kulusid täpsust parandamata.

Müüt

Visuaalse RAG-i tegemiseks vajate GPT-4V või Gemini.

Tõelisus

Avatud lähtekoodiga mudelid nagu LLaVA, Qwen-VL, InternVL ja MiniCPM-V saavad visuaalse RAG-i ülesannetega tõhusalt hakkama. Väiksemad nägemiskoodrid koos otsingumootoritega nagu ColPali töötavad tarbijatele mõeldud GPU-del, muutes visuaalse RAG-i kättesaadavaks ilma patenteeritud API-deta.

Müüt

Visual RAG on tootmiskasutuseks liiga kallis.

Tõelisus

Kuigi visuaalne RAG on kallim kui ainult teksti salvestamine, hoiavad sellised tehnikad nagu piltide tihendamine, vahemällu salvestamine ja valikuline otsing kulud kontrolli all. Dokumentiderohketes tööstusharudes, nagu õigus-, tervishoiu- ja finantsvaldkonnas, õigustab täpsuse suurenemine sageli kulusid.

Sageli küsitud küsimused

Mis on peamine erinevus visuaalse RAG-i ja ainult teksti sisaldava RAG-i vahel?

Visual RAG hangib pilte, dokumendilehti ja visuaalset sisu, et tuvastada keelemudeli vastuseid, samas kui ainult tekstipõhine RAG hangib ainult kirjalikke lõike. Visual RAG kasutab paigutuse, diagrammide ja jooniste mõistmiseks multimodaalseid manuseid, samas kui ainult tekstipõhine RAG tugineb teksti manustamisele ja nõuab skannitud dokumentide puhul sageli OCR-i.

Kas visuaalne RAG on täpsem kui ainult tekstipõhine RAG?

Visuaalne RAG kipub olema täpsem ülesannete puhul, mis hõlmavad diagramme, skeeme, skannitud dokumente ja visuaalseid küsimustele vastamisi. Võrdlustestid nagu DocVQA ja ChartQA näitavad märkimisväärseid parandusi visuaalse otsingu lisamisel. Puhttekstiliste päringute puhul toimivad mõlemad lähenemisviisid aga sarnaselt.

Kas ma saan visuaalset RAG-i kasutada avatud lähtekoodiga mudelitega?

Jah, avatud lähtekoodiga mudelid nagu LLaVA, Qwen-VL, InternVL ja MiniCPM-V toetavad visuaalseid RAG-töövooge. Koos otsingumootoritega nagu ColPali või ColQwen saate luua täielikult avatud lähtekoodiga visuaalseid RAG-torustikke, mis töötavad kohalikel GPU-del ilma patenteeritud API-sid kasutamata.

Kas visuaalne RAG välistab OCR-i vajaduse?

Visuaalne RAG välistab sageli OCR-i, otsides dokumendilehed otse piltidena ja lastes visuaalse keele mudelil neid tõlgendada. See väldib OCR-vigu keerukate küljenduste, käekirja või madala kvaliteediga skannimiste korral. Mõned hübriidsüsteemid kasutavad endiselt OCR-i metaandmete indekseerimiseks, tuginedes samal ajal tegeliku sisu visuaalsele otsimisele.

Kui palju maksab visuaalne RAG võrreldes ainult teksti sisaldava RAG-iga?

Visuaalne RAG maksab tavaliselt 3–10 korda rohkem kui ainult teksti sisaldav RAG, kuna piltide salvestamine, visuaalkoodri arvutusvõimsus ja suurem tokenite kasutamine keelemudelitele piltide edastamisel. Kulud varieeruvad sõltuvalt dokumendi suurusest, otsingu sagedusest ja sellest, kas kasutate hostitud API-sid või ise hostitud mudeleid.

Mis on ColPali ja kuidas see on seotud visuaalse RAG-iga?

ColPali on 2024. aastal kasutusele võetud dokumentide hankimise mudel, mis käsitleb dokumendilehti piltidena ja kasutab manuste loomiseks visuaalseid kodeerijaid, näiteks PaliGemma. See oli teerajajaks visuaalse dokumentide hankimise lähenemisviisis, mis toetab paljusid tänapäevaseid visuaalseid RAG-süsteeme, eriti PDF-mahukate teadmusbaaside puhul.

Millal peaksin eelistama ainult tekstipõhist RAG-i visuaalsele RAG-ile?

Valige ainult tekstipõhine RAG, kui teie teadmusbaas koosneb puhtast tekstist, näiteks artiklitest, koodist, KKK-st või vestluslogidest. See on parem valik ka siis, kui eelarve on piiratud, latentsus on oluline või kui juurutate väiksematel mudelitel ilma visioonivõimalusteta. Ainult tekstipõhine RAG on turvalisem vaikesäte enamiku traditsiooniliste vestlusrobotite ja otsingurakenduste jaoks.

Kas visuaalset RAG-i ja ainult teksti sisaldavat RAG-i saab kombineerida?

Jah, hübriidsed RAG-süsteemid ühendavad mõlemad lähenemisviisid, käitades paralleelseid otsinguid ja liites tulemusi või suunates päringud küsimuse tüübi põhjal sobivale otsingule. See annab teile lihtsate päringute puhul tekstipõhise otsingu kulueelised ja dokumentiderohkete küsimuste puhul visuaalse otsingu täpsuse eelised.

Millised on visuaalse RAG-i hindamise parimad võrdlusalused?

Levinud võrdlusaluste hulka kuuluvad DocVQA dokumentide mõistmiseks, ChartQA diagrammipõhiste küsimuste jaoks, MMMU multimodaalse arutluskäigu jaoks ja InfoVQA infograafiku mõistmiseks. Ainult tekstipõhise RAG puhul on populaarsete võrdlusaluste hulka Natural Questions, TriviaQA ja HotpotQA.

Kas visuaalse RAG-i kasutamiseks on vaja multimodaalset LLM-i?

Jah, visuaalne RAG nõuab keelemudelit, mis suudab pilte töödelda, näiteks GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro või avatud lähtekoodiga alternatiive nagu LLaVA ja Qwen-VL. Puhttekstimudelid, näiteks baas-GPT-4 või Llama 3, ei suuda hangitud pilte tõlgendada, seega töötavad need ainult tekstipõhise RAG-iga.

Otsus

Valige visuaalne RAG, kui teie andmed on piltiderohked või kui paigutusel, diagrammidel ja skeemidel on kriitiline tähendus – see on selge võitja dokumentide tehisintellekti ja visuaalsete küsimustele vastuste jaoks. Traditsiooniliste teadmusbaaside, kiirema juurutamise ja madalamate kulude korral, eriti kui teie sisu on juba puhta teksti kujul, kasutage ainult tekstipõhist RAG-i. Paljud meeskonnad leiavad, et hübriidlähenemine toimib kõige paremini, lastes päringutüübil otsustada, millist otsinguteed kasutada.

Seotud võrdlused

A/B-testimine mudeli serveerimisel vs. ühe mudeli juurutamine

Mudeliteenuse A/B-testimine suunab liiklust konkureerivate mudeliversioonide vahel, et mõõta reaalset toimivust, samas kui ühe mudeli juurutamine saadab kõigile kasutajatele ühe mudeli. Meeskonnad valivad nende vahel riskitaluvuse, liiklusmahu ja statistilise valideerimise vajaduse alusel enne täielikku juurutamist.

A/B-testimine sisuväljaannetes vs ühekordsed sisuväljaanded

Sisuväljaannete A/B-testimine hõlmab variatsioonide levitamist erinevatele sihtrühmadele ja tulemuslikkuse mõõtmist, samas kui ühekordsed sisuväljaanded suunavad ühe versiooni korraga kõigile. Igal lähenemisviisil on erinevad eesmärgid, kusjuures A/B-testimine eelistab andmepõhist optimeerimist ja ühekordsed väljaanded seavad esikohale kiiruse ja lihtsuse.

Adaptiivne intelligentsus vs fikseeritud käitumissüsteemid

See detailne võrdlus uurib adaptiivsete intelligentsete mootorite arhitektuurilisi erinevusi, operatsioonilisi piiranguid ja reaalset jõudlust võrreldes fikseeritud käitumisega automatiseerimissüsteemidega. Vaatleme, kuidas süsteemid, mis pidevalt õpivad uutest keskkonnaandmetest, sobivad kokku jäikade ja ennustatavate reeglipõhiste raamistikega.

Adaptiivne otsing vs staatiline otsing

Adaptiivne otsing kohandab dünaamiliselt, kuidas ja millist teavet süsteem päringu põhjal hangib, samas kui staatilised otsingukanalid järgivad fikseeritud reegleid olenemata kontekstist. Mõlemad toetavad tänapäevaseid tehisintellekti rakendusi, kuid erinevad oluliselt paindlikkuse, maksumuse ja täpsuse poolest. Nende vahel valimine sõltub töökoormuse keerukusest ja eelarvest.

Agentide koolitus keskkondades vs. võrguühenduseta andmestiku koolitus

Agentide koolitamine keskkondades hõlmab õppimist reaalajas simuleeritud või füüsilise keskkonnaga suhtlemise kaudu, samas kui võrguühenduseta andmestiku koolitamine tugineb eelnevalt kogutud andmetele ilma täiendava keskkonnale juurdepääsuta. Mõlemad lähenemisviisid treenivad masinõppe mudeleid, kuid erinevad põhimõtteliselt selle poolest, kuidas agendid kogemusi koguvad ja jõudlust parandavad.