RAG visuaalisella kontekstilla vs. RAG pelkällä tekstikontekstilla
Visuaalisen kontekstin RAG rikastuttaa kielimalleja hakemalla kuvia, kaavioita ja diagrammeja tekstin rinnalla, kun taas pelkkä tekstipohjainen RAG perustuu yksinomaan kirjoitettuihin katkelmiin. Visuaalinen RAG on erinomainen multimodaalisissa tehtävissä, kuten dokumenttien ymmärtämisessä ja visuaalisissa kysymyksiin vastaamisessa, kun taas pelkkä tekstipohjainen RAG on edelleen yksinkertaisempi, nopeampi ja halvempi ottaa käyttöön.
Korostukset
Visual RAG poistaa OCR-virheet hakemalla sivut suoraan kuvina.
Pelkästään kirjoitettujen tietokantojen RAG-tekniikka on edelleen nopeampi ja halvempi.
Multimodaaliset vertailuarvot suosivat johdonmukaisesti visuaalista hakua kaavio- ja asiakirjatehtävissä.
Hybridiputkistot ovat nousemassa käytännölliseksi keskitieksi tuotantojärjestelmille.
Mikä on RAG visuaalisella kontekstilla?
Hakua hyödyntävä generointimenetelmä, joka vetää kuvia, kuvioita ja visuaalista dataa maanpäällisten kielimallien vastauksiin.
Visuaaliset RAG-järjestelmät hakevat sekä teksti- että visuaalista sisältöä tietokannoista tukeakseen multimodaalista päättelyä.
Mallit, kuten GPT-4V, Gemini ja LLaVA, voivat käsitellä haettuja kuvia suoraan konteksti-ikkunoissaan.
ColPali ja ColQwen esittelivät asiakirjojen haun, joka käsittelee sivuja kuvina ohittaen perinteiset OCR-prosessit.
Visual RAG on erityisen tehokas kaavioiden, infografiikoiden, tieteellisten kuvioiden ja skannattujen asiakirjojen ymmärtämiseen.
Vertailuarvot, kuten MMMU ja DocVQA, osoittavat mitattavia hyötyjä, kun visuaalinen haku lisätään vain teksti -pohjaisiin prosessiin.
Mikä on RAG, jossa on vain tekstiä sisältävä konteksti?
Perinteinen haulla täydennetty sukupolviasetus, joka perustaa kielimallit käyttämällä vain dokumenttien kirjoitettuja otteita.
Pelkkä tekstipohjainen RAG tehtiin suosituksi alkuperäisessä Lewisin ym. vuonna 2020 julkaisemassa artikkelissa, jossa esiteltiin haulla laajennettu generointi.
Se käyttää tyypillisesti upotusmalleja, kuten OpenAI text-embedding-3 tai BGE, muuntaakseen palat vektorimuotoon.
Haku suoritetaan yleensä tiheän vektorihaun, BM25:n tai hybridimenetelmien avulla tekstikorpusten yli.
Tekstipohjainen RAG tukee nykyään useimpia tuotantokeskustelubotteja, yritystason hakutyökaluja ja asiakastuen avustajia.
LangChainin, LlamaIndexin ja Haystackin kaltaiset kehykset rakennettiin alun perin vain tekstiä sisältävien hakuputkien ympärille.
Artikkelit, usein kysytyt kysymykset, koodi, jäsennelty teksti
Monimutkaisuus
Korkeampi — vaatii konenäköenkoodereita ja enemmän tallennustilaa
Alempi — yksinkertaisemmat putkistot ja indeksointi
Maksaa
Korkeampi kuvankäsittelyn ja tokenien käytön vuoksi
Matalampi, etenkin pienten tekstipalojen kanssa
Latenssi
Hieman korkeampi kuvan koodauksesta
Yleensä nopeampi
OCR-riippuvuus
Usein eliminoitu suoralla kuvanhaulla
Vaaditaan skannatuille tai kuvapohjaisille PDF-tiedostoille
Esimerkkimallit
GPT-4V, Gemini 1.5, LLaVA, Qwen-VL
GPT-4, Claude, Mistral, Laama 3
Yksityiskohtainen vertailu
Hakuputken erot
Pelkkä tekstipohjainen RAG seuraa tuttua polkua: dokumentit jaetaan osiin, upotetaan vektoreihin ja tallennetaan tietokantaan samankaltaisuushakua varten. Visuaalinen RAG käyttää perustavanlaatuisesti erilaista lähestymistapaa koodaamalla kokonaisia sivuja tai kuvia visuaalisiksi upotuksiksi, jolloin järjestelmä voi hakea tietoja asettelun, kaavioiden ja kuvioiden perusteella pelkkien sanojen sijaan. Tämä muutos tarkoittaa, että visuaalinen RAG voi löytää tietoja, jotka sijaitsevat kaavioissa, taulukoissa tai käsin kirjoitetuissa muistiinpanoissa, joita OCR saattaa sotkea.
Multimodaalisten asiakirjojen tarkkuus
Kun dokumentit sisältävät rikkaita visuaalisia elementtejä, kuten talouskaavioita, teknisiä kaavioita tai lääketieteellistä kuvantamista, visuaalinen RAG toimii yleensä paremmin kuin pelkkään tekstiin perustuvat lähestymistavat. DocVQA- ja ChartQA-vertailuarvoja koskevat tutkimukset osoittavat, että mallit, jotka vastaanottavat haettuja kuvia tekstin rinnalla, vastaavat kysymyksiin oikeammin kuin mallit, jotka perustuvat pelkästään poimittuun tekstiin. Puhtaasti tekstilähteissä, kuten blogikirjoituksissa tai koodivarastoissa, pelkkä tekstipohjainen RAG toimii kuitenkin yhtä hyvin ilman lisäkustannuksia.
Kustannukset ja infrastruktuuri
Visuaalinen RAG vaatii infrastruktuuriltasi enemmän. Kuvien upottamiseen käytettävät tiedostot vievät enemmän levytilaa, ColPalin kaltaiset konenäköenkooderit vaativat näytönohjaimia toimiakseen tehokkaasti, ja kuvien syöttäminen kielimalleihin kuluttaa paljon enemmän tokeneita kuin pelkkä teksti. Pelkkä tekstipohjainen RAG on edelleen budjettiystävällinen valinta useimmille tiimeille, varsinkin työskenneltäessä suurten artikkeli- tai dokumenttikokonaisuuksien kanssa, jotka eivät vaadi visuaalista tulkintaa.
Käytä kotelon sovitusta
Valitse visuaalinen RAG, kun tietämyskannassasi on skannattuja PDF-tiedostoja, diaesityksiä, tuoteluetteloita valokuvineen tai mitä tahansa sisältöä, jossa visuaalisella asettelulla on merkitystä. Pelkkä tekstipohjainen RAG loistaa asiakastuen wikissä, selkokielisissä oikeudellisissa sopimuksissa, koodidokumentaatiossa ja keskusteluagenteissa, joissa nopeus ja kustannukset ovat tärkeämpiä kuin visuaalinen tarkkuus. Monet tuotantojärjestelmät yhdistävät nykyään molemmat, hakemalla tekstiä joihinkin kyselyihin ja kuvia toisiin.
Mallien yhteensopivuus
Visuaalinen RAG vaatii kuvien käsittelyyn kykenevän multimodaalisen mallin, kuten GPT-4V:n, Claude 3.5 Sonnetin, Gemini 1.5 Pron tai avoimen lähdekoodin vaihtoehtoja, kuten LLaVA ja Qwen-VL. Vain teksti -RAG toimii käytännössä minkä tahansa kielimallin kanssa, mukaan lukien pienemmät avoimen lähdekoodin mallit, kuten Llama 3 8B tai Mistral 7B, joten se on käytettävissä jopa vaatimattomilla laitteistoilla. Tämä yhteensopivuuskuilu pienenee, kun yhä useammat mallit saavat näköominaisuuksia, mutta vain teksti -asetukset tarjoavat edelleen laajempia käyttöönottovaihtoehtoja.
Hyödyt ja haitat
RAG visuaalisella kontekstilla
Plussat
+Käsittelee kaavioita ja kaavioita
+Ohittaa OCR-rajoitukset
+Parempi asiakirjojen ymmärtäminen
+Tallentaa asettelutiedot
Sisältö
−Korkeammat infrastruktuurikustannukset
−Hitaampi hakuviive
−Tarvitsee multimodaalisia malleja
−Suurempi tallennustila
RAG, jossa on vain tekstiä sisältävä konteksti
Plussat
+Helppo ottaa käyttöön
+Alemmat käyttökustannukset
+Toimii minkä tahansa LLM:n kanssa
+Kypsä työkaluekosysteemi
Sisältö
−Vaikeuksia visuaalisuuden kanssa
−Riippuu OCR-laadusta
−Ohittaa asetteluvihjeet
−Heikompi kuvapainotteisissa dokumenteissa
Yleisiä harhaluuloja
Myytti
Visuaalinen RAG korvaa kokonaan pelkkään tekstiin perustuvan RAG:n.
Todellisuus
Visuaalinen RAG täydentää tekstipohjaisia lähestymistapoja sen sijaan, että se korvaisi ne. Puhtaasti tekstipohjaisten korpusten, kuten artikkelien tai koodin, kohdalla tekstipohjainen haku on edelleen nopeampi ja yhtä tarkka. Useimmat tuotantojärjestelmät hyötyvät hybridiasetelmasta, joka reitittää kyselyt oikealle hakupalvelulle.
Myytti
Vain tekstiä sisältävä RAG ei pysty käsittelemään kuvia sisältäviä dokumentteja lainkaan.
Todellisuus
Pelkkää tekstiä käyttävä RAG voi edelleen käsitellä kuvia sisältäviä dokumentteja ajamalla ensin OCR:n ja indeksoimalla poimitun tekstin. Laatu riippuu suuresti OCR-prosessista, ja monimutkaiset asettelut usein menettävät merkityksensä, mutta se on toimiva lähestymistapa monissa käyttötapauksissa.
Myytti
Visuaalinen RAG antaa aina parempia vastauksia kuin pelkkä tekstipohjainen RAG.
Todellisuus
Visuaalinen RAG on tekstilauseisiin perustuvaa RAGia parempi vain silloin, kun noudettu visuaalinen tieto on todella olennaista kyselyn kannalta. Proosaa, koodia tai jäsenneltyä tekstiä koskevissa kysymyksissä kuvien lisääminen voi aiheuttaa kohinaa ja lisätä kustannuksia parantamatta tarkkuutta.
Myytti
Tarvitset GPT-4V:n tai Gemini:n visuaalisen RAG:n tekemiseen.
Todellisuus
Avoimen lähdekoodin mallit, kuten LLaVA, Qwen-VL, InternVL ja MiniCPM-V, pystyvät käsittelemään visuaalisia RAG-tehtäviä tehokkaasti. Pienemmät konenäköenkooderit yhdistettynä hakuohjelmiin, kuten ColPali, toimivat kuluttajakäyttöön tarkoitetuilla näytönohjaimilla, mikä tekee visuaalisesta RAGista saatavilla ilman omia API-rajapintoja.
Myytti
Visual RAG on liian kallis tuotantokäyttöön.
Todellisuus
Vaikka visuaalinen RAG on kalliimpi kuin pelkkä teksti, tekniikat, kuten kuvan pakkaus, upotettu välimuisti ja valikoiva haku, pitävät kustannukset hallittavina. Dokumenttipainotteisilla aloilla, kuten laki-, terveydenhuolto- ja rahoitusalalla, tarkkuuden parannukset usein oikeuttavat kustannukset.
Usein kysytyt kysymykset
Mitä eroa on visuaalisen RAG:n ja vain tekstiä sisältävän RAG:n välillä?
Visual RAG hakee kuvia, asiakirjasivuja ja visuaalista sisältöä kielimallivastausten perusteella, kun taas pelkkä tekstipohjainen RAG hakee vain kirjoitettuja osia. Visual RAG käyttää multimodaalisia upotuksia asettelun, kaavioiden ja kuvien ymmärtämiseen, kun taas pelkkä tekstipohjainen RAG luottaa tekstiupotuksiin ja vaatii usein OCR:n skannatuille asiakirjoille.
Onko visuaalinen RAG tarkempi kuin pelkkä tekstipohjainen RAG?
Visuaalinen RAG on yleensä tarkempi tehtävissä, joissa on mukana kaavioita, kaavioita, skannattuja asiakirjoja ja visuaalisia kysymysvastauksia. Vertailuarvot, kuten DocVQA ja ChartQA, osoittavat merkittäviä parannuksia, kun visuaalinen haku lisätään. Puhtaasti tekstipohjaisissa kyselyissä molemmat lähestymistavat toimivat kuitenkin samalla tavalla.
Voinko käyttää visuaalista RAGia avoimen lähdekoodin mallien kanssa?
Kyllä, avoimen lähdekoodin mallit, kuten LLaVA, Qwen-VL, InternVL ja MiniCPM-V, tukevat visuaalisia RAG-työnkulkuja. Yhdessä ColPalin tai ColQwenin kaltaisten hakutyökalujen kanssa voit rakentaa täysin avoimen lähdekoodin visuaalisia RAG-putkia, jotka toimivat paikallisilla näytönohjaimilla ilman, että sinun tarvitsee käyttää omia API-rajapintoja.
Poistaako visuaalinen RAG OCR:n tarpeen?
Visuaalinen RAG usein poistaa OCR:n hakemalla asiakirjasivut suoraan kuvina ja antamalla näkö-kielimallin tulkita ne. Tämä välttää OCR-virheet monimutkaisissa asetteluissa, käsin kirjoitetussa tekstissä tai heikkolaatuisissa skannauksissa. Jotkut hybridijärjestelmät käyttävät edelleen OCR:ää metatietojen indeksointiin, mutta luottavat visuaaliseen hakuun varsinaisen sisällön osalta.
Paljonko visuaalinen RAG maksaa verrattuna pelkkään tekstiin perustuvaan RAGiin?
Visuaalinen RAG maksaa tyypillisesti 3–10 kertaa enemmän kuin pelkkää tekstiä sisältävä RAG kuvatallennuksen, visionkooderin laskennan ja suuremman token-käytön vuoksi kuvia kielimalleille syötettäessä. Kustannukset vaihtelevat dokumentin koon, hakutiheyden ja sen mukaan, käytätkö isännöityjä API-rajapintoja vai itse isännöityjä malleja.
Mikä on ColPali ja miten se liittyy visuaaliseen RAG:iin?
ColPali on vuonna 2024 esitelty asiakirjojen hakumalli, joka käsittelee asiakirjasivuja kuvina ja käyttää upotusten luomiseen visuaalisia enkoodereita, kuten PaliGemmaa. Se oli edelläkävijä visuaalisessa asiakirjojen hakumenetelmässä, jota käytetään monien nykyaikaisten visuaalisten RAG-järjestelmien, erityisesti PDF-painotteisten tietokantojen, tukena.
Milloin minun pitäisi valita pelkkä tekstipohjainen RAG visuaalisen RAG:n sijaan?
Valitse pelkkä tekstipohjainen RAG, kun tietämyskantasi koostuu puhtaasta tekstistä, kuten artikkeleista, koodista, usein kysytyistä kysymyksistä tai chat-lokeista. Se on myös parempi valinta, kun budjetti on tiukka, viiveellä on merkitystä tai otat käyttöön pienempiä malleja ilman visio-ominaisuuksia. Pelkkä tekstipohjainen RAG on turvallisempi oletusarvo useimmille perinteisille chatbot- ja hakusovelluksille.
Voidaanko visuaalinen RAG ja pelkkää tekstiä sisältävä RAG yhdistää?
Kyllä, hybridi-RAG-järjestelmät yhdistävät molemmat lähestymistavat suorittamalla rinnakkaisia hakutoimintoja ja yhdistämällä tuloksia tai reitittämällä kyselyt oikeaan hakutoimintoon kysymystyypin perusteella. Tämä antaa sinulle tekstipohjaisen haun kustannushyödyt yksinkertaisissa kyselyissä ja visuaalisen haun tarkkuushyötyjä dokumenttipainotteisissa kysymyksissä.
Mitkä ovat parhaat vertailuarvot visuaalisen RAG:n arvioimiseen?
Yleisiä vertailukohtia ovat DocVQA dokumenttien ymmärtämiseen, ChartQA kaaviopohjaisiin kysymyksiin, MMMU multimodaaliseen päättelyyn ja InfoVQA infografiikan ymmärtämiseen. Pelkkää tekstiä sisältävän RAG:n osalta suosittuja vertailukohtia ovat Natural Questions, TriviaQA ja HotpotQA.
Tarvitsenko multimodaalisen oikeustieteen maisterin tutkinnon visuaalisen RAG:n käyttämiseen?
Kyllä, visuaalinen RAG vaatii kielimallin, joka pystyy käsittelemään kuvia, kuten GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro tai avoimen lähdekoodin vaihtoehtoja, kuten LLaVA ja Qwen-VL. Puhtaasti tekstipohjaiset mallit, kuten perus-GPT-4 tai Llama 3, eivät pysty tulkitsemaan haettuja kuvia, joten ne toimivat vain tekstipohjaisen RAG:n kanssa.
Tuomio
Valitse visuaalinen RAG, kun datasi on kuvapainotteinen tai kun asettelulla, kaavioilla ja diagrammeilla on kriittinen merkitys – se on selvä voittaja dokumenttien tekoälyn ja visuaalisten kysymysten vastausten kannalta. Käytä pelkkää tekstiä sisältävää RAGia perinteisten tietokantojen, nopeamman käyttöönoton ja alhaisempien kustannusten kannalta, varsinkin kun sisältösi on jo puhtaassa tekstimuodossa. Monet tiimit ovat havainneet, että hybridilähestymistapa toimii parhaiten, kun kyselytyyppi päättää, mitä hakupolkua käytetään.