RAG ar vizuālu kontekstu salīdzinājumā ar RAG ar tikai teksta kontekstu
RAG ar vizuālu kontekstu bagātina valodas modeļus, izgūstot attēlus, diagrammas un shēmas līdzās tekstam, savukārt tikai teksta RAG paļaujas tikai uz rakstiskām rindkopām. Vizuālā RAG izceļas ar multimodāliem uzdevumiem, piemēram, dokumentu izpratni un vizuālu jautājumu atbildēšanu, savukārt tikai teksta RAG joprojām ir vienkāršāka, ātrāka un lētāka ieviešama.
Iezīmes
Visual RAG novērš OCR kļūdas, tieši izgūstot lapas kā attēlus.
Tikai teksta RAG joprojām ir ātrāks un lētāks tīri rakstiskām zināšanu bāzēm.
Multimodālie kritēriji diagrammu un dokumentu uzdevumiem konsekventi dod priekšroku vizuālai izguvei.
Hibrīdie cauruļvadi kļūst par praktisku vidusceļu ražošanas sistēmām.
Kas ir RAG ar vizuālo kontekstu?
Ar izgūšanas palīdzību papildinātas ģenerēšanas pieeja, kas attēlus, figūras un vizuālos datus iegūst, lai iegūtu pamata valodas modeļa atbildes.
Vizuālās RAG sistēmas no zināšanu bāzēm izgūst gan tekstuālu, gan vizuālu saturu, lai atbalstītu multimodālu spriešanu.
Modeļi, piemēram, GPT-4V, Gemini un LLaVA, var apstrādāt izgūtos attēlus tieši savos konteksta logos.
ColPali un ColQwen ieviesa dokumentu izguvi, kas apstrādā lapas kā attēlus, apejot tradicionālos OCR kanālus.
Visual RAG ir īpaši efektīvs diagrammu, infografiku, zinātnisku figūru un skenētu dokumentu izpratnei.
Tādi salīdzinošie testi kā MMMU un DocVQA uzrāda izmērāmus ieguvumus, ja vizuālā izguve tiek pievienota tikai teksta kanāliem.
Kas ir RAG ar tikai teksta kontekstu?
Tradicionāla izguves papildinātas ģenerēšanas iestatīšana, kas pamato valodas modeļus, izmantojot tikai rakstiskus fragmentus no dokumentiem.
Tikai teksta RAG popularizēja sākotnējais 2020. gada Lūisa et al. raksts, kurā tika ieviesta ar izgūšanas palīdzību papildināta ģenerēšana.
Parasti fragmentu konvertēšanai vektoru attēlojumos tiek izmantoti iegulšanas modeļi, piemēram, OpenAI text-embedding-3 vai BGE.
Ieguve parasti tiek veikta, izmantojot blīvu vektoru meklēšanu, BM25 vai hibrīdmetodes teksta korpusos.
Tikai teksta RAG nodrošina lielāko daļu ražošanas tērzēšanas robotu, uzņēmuma meklēšanas rīku un klientu atbalsta asistentu mūsdienās.
Tādi ietvari kā LangChain, LlamaIndex un Haystack sākotnēji tika veidoti, izmantojot tikai teksta izguves cauruļvadus.
Salīdzinājuma tabula
Funkcija
RAG ar vizuālo kontekstu
RAG ar tikai teksta kontekstu
Ievades modalitāte
Teksts + attēli + vizuālie dati
Tikai teksts
Ieguves metode
Multimodāli iegulšanas veidi (piemēram, ColPali, CLIP)
Teksta iegulšana (piemēram, BGE, OpenAI ada)
Vislabāk piemērots
Diagrammas, diagrammas, skenēti dokumenti, vizuālā kvalitātes nodrošināšana
Raksti, bieži uzdotie jautājumi, kods, strukturēts teksts
Sarežģītība
Augstāks — nepieciešami vizuālie kodētāji un lielāka krātuve
Zemāks — vienkāršāki cauruļvadi un indeksēšana
Izmaksas
Augstāks attēlu apstrādes un žetonu izmantošanas dēļ
Zemāks, īpaši ar nelieliem teksta fragmentiem
Latentums
Nedaudz augstāks no attēla kodēšanas
Parasti ātrāk
OCR atkarība
Bieži vien tiek novērsts, tieši izgūstot attēlus
Nepieciešams skenētiem vai attēlu PDF failiem
Piemēru modeļi
GPT-4V, Gemini 1.5, LLaVA, Qwen-VL
GPT-4, Klods, Mistrāls, Lama 3
Detalizēts salīdzinājums
Izguves cauruļvada atšķirības
Tikai teksta RAG seko labi iestaigātam ceļam: dokumenti tiek sadalīti daļās, iegulti vektoros un glabāti datubāzē līdzības meklēšanai. Vizuālā RAG izmanto principiāli atšķirīgu pieeju, kodējot veselas lapas vai attēlus kā vizuālus iegultos elementus, ļaujot sistēmai izgūt informāciju, pamatojoties uz izkārtojumu, diagrammām un attēliem, nevis tikai vārdiem. Šī maiņa nozīmē, ka vizuālā RAG var atrast informāciju, kas atrodas grafikos, tabulās vai ar roku rakstītās piezīmēs, kuras OCR varētu izkropļot.
Multimodālu dokumentu precizitāte
Ja dokumentos ir bagātīgi vizuāli materiāli, piemēram, finanšu diagrammas, inženiertehniskās diagrammas vai medicīniskā attēlveidošana, vizuālā RAG parasti pārspēj tikai teksta pieejas. Pētījumi par DocVQA un ChartQA etaloniem liecina, ka modeļi, kas saņem izgūtos attēlus kopā ar tekstu, atbild uz jautājumiem pareizāk nekā tie, kas paļaujas tikai uz izgūto tekstu. Tomēr tīri teksta avotiem, piemēram, emuāra ierakstiem vai koda krātuvēm, tikai teksta RAG darbojas tikpat labi bez papildu izmaksām.
Izmaksas un infrastruktūra
Vizuālais RAG prasa vairāk no jūsu infrastruktūras. Attēlu iegulšanas glabāšana aizņem vairāk vietas diskā, vizuālo kodētāju, piemēram, ColPali, efektīvai darbībai ir nepieciešamas grafiskās procesoras, un attēlu ievadīšana valodu modeļos patērē daudz vairāk žetonu nekā vienkārša teksta. Tikai teksta RAG joprojām ir budžetam draudzīga izvēle lielākajai daļai komandu, īpaši strādājot ar lieliem rakstu vai dokumentācijas korpusiem, kuriem nav nepieciešama vizuāla interpretācija.
Lietošanas gadījums piemērots
Izvēlieties vizuālo RAG, ja jūsu zināšanu bāzē ir skenēti PDF faili, slaidu komplekti, produktu katalogi ar fotoattēliem vai jebkurš saturs, kurā vizuālajam izkārtojumam ir nozīme. Tikai teksta RAG lieliski piemērots klientu atbalsta wiki, juridiskiem līgumiem vienkāršā tekstā, koda dokumentācijai un sarunu aģentiem, kur ātrums un izmaksas ir svarīgākas par vizuālo precizitāti. Daudzas ražošanas sistēmas tagad apvieno abus, izgūstot tekstu dažiem vaicājumiem un attēlus citiem.
Modeļu saderība
Vizuālajam RAG ir nepieciešams multimodāls modelis, kas spēj apstrādāt attēlus, piemēram, GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro vai atvērtā pirmkoda alternatīvas, piemēram, LLaVA un Qwen-VL. Tikai teksta RAG darbojas praktiski ar jebkuru valodas modeli, tostarp mazākiem atvērtā koda modeļiem, piemēram, Llama 3 8B vai Mistral 7B, padarot to pieejamu pat pieticīgā aparatūrā. Šī saderības atšķirība sarūk, jo arvien vairāk modeļu iegūst redzes iespējas, taču tikai teksta iestatījumi joprojām piedāvā plašākas izvietošanas iespējas mūsdienās.
Priekšrocības un trūkumi
RAG ar vizuālo kontekstu
Iepriekšējumi
+Apstrādā diagrammas un diagrammas
+Apiet OCR ierobežojumus
+Labāka dokumentu izpratne
+Ietver izkārtojuma informāciju
Ievietots
−Augstākas infrastruktūras izmaksas
−Lēnāka izguves latentuma
−Nepieciešami multimodāli modeļi
−Lielāka uzglabāšanas platība
RAG ar tikai teksta kontekstu
Iepriekšējumi
+Vienkārši izvietot
+Zemākas ekspluatācijas izmaksas
+Darbojas ar jebkuru LLM
+Nobriedusi instrumentu ekosistēma
Ievietots
−Grūtības ar vizuālajiem efektiem
−Atkarīgs no OCR kvalitātes
−Nepamana izkārtojuma norādes
−Vājāka dokumentos, kuros ir daudz attēlu
Biežas maldības
Mīts
Vizuālā RAG pilnībā aizstāj tikai teksta RAG.
Realitāte
Vizuālā RAG papildina, nevis aizstāj tikai teksta pieejas. Tīri tekstuāliem korpusiem, piemēram, rakstiem vai kodam, tikai teksta izguve joprojām ir ātrāka un tikpat precīza. Lielākā daļa ražošanas sistēmu gūst labumu no hibrīda iestatījuma, kas novirza vaicājumus uz atbilstošo izguvēju.
Mīts
Tikai teksta RAG vispār nevar apstrādāt dokumentus ar attēliem.
Realitāte
Tikai tekstu saturošs RAG joprojām var apstrādāt attēlus saturošus dokumentus, vispirms palaižot OCR un indeksējot iegūto tekstu. Kvalitāte ir ļoti atkarīga no OCR procesa, un sarežģīti izkārtojumi bieži vien zaudē nozīmi, taču šī ir piemērota pieeja daudziem lietošanas gadījumiem.
Mīts
Vizuālā RAG metode vienmēr sniedz labākas atbildes nekā tikai teksta RAG metode.
Realitāte
Vizuālā RAG metode pārspēj tikai teksta RAG metodi tikai tad, ja iegūtā vizuālā informācija faktiski ir atbilstoša vaicājumam. Jautājumiem par prozu, kodu vai strukturētu tekstu attēlu pievienošana var radīt troksni un palielināt izmaksas, neuzlabojot precizitāti.
Mīts
Lai veiktu vizuālo RAG, nepieciešams GPT-4V vai Gemini.
Realitāte
Atvērtā pirmkoda modeļi, piemēram, LLaVA, Qwen-VL, InternVL un MiniCPM-V, var efektīvi apstrādāt vizuālos RAG uzdevumus. Mazāki redzes kodētāji apvienojumā ar izgūšanas rīkiem, piemēram, ColPali, darbojas uz patērētāju GPU, padarot vizuālo RAG pieejamu bez patentētām API.
Mīts
Visual RAG ir pārāk dārgs lietošanai ražošanā.
Realitāte
Lai gan vizuālā RAG apstrāde izmaksā vairāk nekā tikai teksta apstrāde, tādas metodes kā attēlu saspiešana, iegultā kešatmiņa un selektīva izguve ļauj izmaksas pārvaldīt. Dokumentu apstrādes nozarēs, piemēram, juridiskajā, veselības aprūpes un finanšu jomā, precizitātes pieaugums bieži vien attaisno izdevumus.
Bieži uzdotie jautājumi
Kāda ir galvenā atšķirība starp vizuālo RAG un tikai teksta RAG?
Visual RAG izgūst attēlus, dokumentu lapas un vizuālo saturu, lai iegūtu valodas modeļa atbildes, savukārt tikai teksta RAG izgūst tikai rakstiskas daļas. Visual RAG izmanto multimodālus iegulšanas veidus, lai izprastu izkārtojumu, diagrammas un attēlus, savukārt tikai teksta RAG paļaujas uz teksta iegulšanu un bieži vien skenētiem dokumentiem ir nepieciešama OCR.
Vai vizuālais RAG ir precīzāks nekā tikai teksta RAG?
Vizuālā RAG metode parasti ir precīzāka uzdevumos, kas ietver diagrammas, diagrammas, skenētus dokumentus un vizuālas atbildes uz jautājumiem. Tādi salīdzinošie testi kā DocVQA un ChartQA uzrāda ievērojamus uzlabojumus, pievienojot vizuālu izgūšanu. Tomēr tīri tekstuālu vaicājumu gadījumā abas pieejas darbojas līdzīgi.
Vai es varu izmantot vizuālo RAG ar atvērtā koda modeļiem?
Jā, atvērtā pirmkoda modeļi, piemēram, LLaVA, Qwen-VL, InternVL un MiniCPM-V, atbalsta vizuālās RAG darbplūsmas. Apvienojumā ar tādiem izgūšanas rīkiem kā ColPali vai ColQwen varat veidot pilnībā atvērtā pirmkoda vizuālās RAG plūsmas, kas darbojas lokālos GPU, neizmantojot patentētas API.
Vai vizuālā RAG tehnoloģija novērš nepieciešamību pēc OCR?
Vizuālā RAG bieži vien novērš OCR, tieši izgūstot dokumentu lapas kā attēlus un ļaujot vizuālās valodas modelim tos interpretēt. Tas novērš OCR kļūdas sarežģītos izkārtojumos, rokrakstā vai zemas kvalitātes skenējumos. Dažas hibrīdsistēmas joprojām izmanto OCR metadatu indeksēšanai, vienlaikus paļaujoties uz vizuālu faktiskā satura izgūšanu.
Cik maksā vizuālais RAG salīdzinājumā ar tikai teksta RAG?
Vizuālais RAG parasti izmaksā 3 līdz 10 reizes vairāk nekā tikai teksta RAG attēlu glabāšanas, redzes kodētāja skaitļošanas un lielāka tokenu izmantošanas dēļ, barojot attēlus valodu modeļiem. Izmaksas atšķiras atkarībā no dokumenta lieluma, izguves biežuma un no tā, vai izmantojat mitinātus API vai pašmitinātus modeļus.
Kas ir ColPali un kā tas ir saistīts ar vizuālo RAG?
ColPali ir dokumentu izguves modelis, kas tika ieviests 2024. gadā un apstrādā dokumentu lapas kā attēlus, kā arī izmanto vizuālos kodētājus, piemēram, PaliGemma, lai izveidotu iegultos failus. Tas bija pirmais vizuālo dokumentu izguves pieejas ieviesējs, kas nodrošina daudzas mūsdienu vizuālās RAG sistēmas, īpaši zināšanu bāzēm ar lielu PDF apjomu.
Kad man vajadzētu izvēlēties tikai teksta RAG, nevis vizuālo RAG?
Izvēlieties tikai teksta RAG, ja jūsu zināšanu bāze sastāv no tīra teksta, piemēram, rakstiem, koda, bieži uzdotajiem jautājumiem vai tērzēšanas žurnāliem. Tā ir arī labāka izvēle, ja budžets ir ierobežots, latentums ir svarīgs vai jūs ieviešat mazākos modeļos bez redzamības iespējām. Tikai teksta RAG ir drošāks noklusējuma iestatījums lielākajai daļai tradicionālo tērzēšanas robotu un meklēšanas lietojumprogrammu.
Vai vizuālo RAG un tikai teksta RAG var apvienot?
Jā, hibrīdās RAG sistēmas apvieno abas pieejas, palaižot paralēlus izgūšanas rīkus un apvienojot rezultātus vai novirzot vaicājumus uz atbilstošo izgūšanas rīku, pamatojoties uz jautājuma veidu. Tas sniedz jums tikai teksta izgūšanas izmaksu priekšrocības vienkāršiem vaicājumiem un vizuālās izgūšanas precizitātes priekšrocības jautājumiem ar lielu dokumentu daudzumu.
Kādi ir labākie vizuālā RAG novērtēšanas kritēriji?
Bieži sastopamie kritēriji ir DocVQA dokumentu izpratnei, ChartQA uz diagrammām balstītiem jautājumiem, MMMU multimodālai spriešanai un InfoVQA infografiku izpratnei. Tikai teksta RAG populāri kritēriji ir Natural Questions, TriviaQA un HotpotQA.
Vai man ir nepieciešams multimodāls LLM, lai izmantotu vizuālo RAG?
Jā, vizuālajam RAG ir nepieciešams valodas modelis, kas var apstrādāt attēlus, piemēram, GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro vai atvērtā pirmkoda alternatīvas, piemēram, LLaVA un Qwen-VL. Tīra teksta modeļi, piemēram, bāzes GPT-4 vai Llama 3, nevar interpretēt izgūtos attēlus, tāpēc tie darbojas tikai ar tikai teksta RAG.
Spriedums
Izvēlieties vizuālo RAG, ja jūsu datos ir daudz attēlu vai ja izkārtojumam, diagrammām un diagrammām ir kritiska nozīme — tas ir nepārprotams uzvarētājs dokumentu mākslīgajam intelektam un vizuālām jautājumu atbildēm. Tradicionālām zināšanu bāzēm, ātrākai ieviešanai un zemākām izmaksām izvēlieties tikai teksta RAG, īpaši, ja jūsu saturs jau ir tīra teksta formātā. Daudzas komandas uzskata, ka vislabāk darbojas hibrīda pieeja, ļaujot vaicājuma tipam izlemt, kuru izguves ceļu izmantot.