mākslīgais intelektslupatamultimodāls mākslīgais intelektsatgūšanas-paplašinātās-paaudzesLLMdatorredze

RAG ar vizuālu kontekstu salīdzinājumā ar RAG ar tikai teksta kontekstu

RAG ar vizuālu kontekstu bagātina valodas modeļus, izgūstot attēlus, diagrammas un shēmas līdzās tekstam, savukārt tikai teksta RAG paļaujas tikai uz rakstiskām rindkopām. Vizuālā RAG izceļas ar multimodāliem uzdevumiem, piemēram, dokumentu izpratni un vizuālu jautājumu atbildēšanu, savukārt tikai teksta RAG joprojām ir vienkāršāka, ātrāka un lētāka ieviešama.

Iezīmes

Visual RAG novērš OCR kļūdas, tieši izgūstot lapas kā attēlus.
Tikai teksta RAG joprojām ir ātrāks un lētāks tīri rakstiskām zināšanu bāzēm.
Multimodālie kritēriji diagrammu un dokumentu uzdevumiem konsekventi dod priekšroku vizuālai izguvei.
Hibrīdie cauruļvadi kļūst par praktisku vidusceļu ražošanas sistēmām.

Kas ir RAG ar vizuālo kontekstu?

Ar izgūšanas palīdzību papildinātas ģenerēšanas pieeja, kas attēlus, figūras un vizuālos datus iegūst, lai iegūtu pamata valodas modeļa atbildes.

Vizuālās RAG sistēmas no zināšanu bāzēm izgūst gan tekstuālu, gan vizuālu saturu, lai atbalstītu multimodālu spriešanu.
Modeļi, piemēram, GPT-4V, Gemini un LLaVA, var apstrādāt izgūtos attēlus tieši savos konteksta logos.
ColPali un ColQwen ieviesa dokumentu izguvi, kas apstrādā lapas kā attēlus, apejot tradicionālos OCR kanālus.
Visual RAG ir īpaši efektīvs diagrammu, infografiku, zinātnisku figūru un skenētu dokumentu izpratnei.
Tādi salīdzinošie testi kā MMMU un DocVQA uzrāda izmērāmus ieguvumus, ja vizuālā izguve tiek pievienota tikai teksta kanāliem.

Kas ir RAG ar tikai teksta kontekstu?

Tradicionāla izguves papildinātas ģenerēšanas iestatīšana, kas pamato valodas modeļus, izmantojot tikai rakstiskus fragmentus no dokumentiem.

Tikai teksta RAG popularizēja sākotnējais 2020. gada Lūisa et al. raksts, kurā tika ieviesta ar izgūšanas palīdzību papildināta ģenerēšana.
Parasti fragmentu konvertēšanai vektoru attēlojumos tiek izmantoti iegulšanas modeļi, piemēram, OpenAI text-embedding-3 vai BGE.
Ieguve parasti tiek veikta, izmantojot blīvu vektoru meklēšanu, BM25 vai hibrīdmetodes teksta korpusos.
Tikai teksta RAG nodrošina lielāko daļu ražošanas tērzēšanas robotu, uzņēmuma meklēšanas rīku un klientu atbalsta asistentu mūsdienās.
Tādi ietvari kā LangChain, LlamaIndex un Haystack sākotnēji tika veidoti, izmantojot tikai teksta izguves cauruļvadus.

Salīdzinājuma tabula

Funkcija	RAG ar vizuālo kontekstu	RAG ar tikai teksta kontekstu
Ievades modalitāte	Teksts + attēli + vizuālie dati	Tikai teksts
Ieguves metode	Multimodāli iegulšanas veidi (piemēram, ColPali, CLIP)	Teksta iegulšana (piemēram, BGE, OpenAI ada)
Vislabāk piemērots	Diagrammas, diagrammas, skenēti dokumenti, vizuālā kvalitātes nodrošināšana	Raksti, bieži uzdotie jautājumi, kods, strukturēts teksts
Sarežģītība	Augstāks — nepieciešami vizuālie kodētāji un lielāka krātuve	Zemāks — vienkāršāki cauruļvadi un indeksēšana
Izmaksas	Augstāks attēlu apstrādes un žetonu izmantošanas dēļ	Zemāks, īpaši ar nelieliem teksta fragmentiem
Latentums	Nedaudz augstāks no attēla kodēšanas	Parasti ātrāk
OCR atkarība	Bieži vien tiek novērsts, tieši izgūstot attēlus	Nepieciešams skenētiem vai attēlu PDF failiem
Piemēru modeļi	GPT-4V, Gemini 1.5, LLaVA, Qwen-VL	GPT-4, Klods, Mistrāls, Lama 3

Detalizēts salīdzinājums

Izguves cauruļvada atšķirības

Tikai teksta RAG seko labi iestaigātam ceļam: dokumenti tiek sadalīti daļās, iegulti vektoros un glabāti datubāzē līdzības meklēšanai. Vizuālā RAG izmanto principiāli atšķirīgu pieeju, kodējot veselas lapas vai attēlus kā vizuālus iegultos elementus, ļaujot sistēmai izgūt informāciju, pamatojoties uz izkārtojumu, diagrammām un attēliem, nevis tikai vārdiem. Šī maiņa nozīmē, ka vizuālā RAG var atrast informāciju, kas atrodas grafikos, tabulās vai ar roku rakstītās piezīmēs, kuras OCR varētu izkropļot.

Multimodālu dokumentu precizitāte

Ja dokumentos ir bagātīgi vizuāli materiāli, piemēram, finanšu diagrammas, inženiertehniskās diagrammas vai medicīniskā attēlveidošana, vizuālā RAG parasti pārspēj tikai teksta pieejas. Pētījumi par DocVQA un ChartQA etaloniem liecina, ka modeļi, kas saņem izgūtos attēlus kopā ar tekstu, atbild uz jautājumiem pareizāk nekā tie, kas paļaujas tikai uz izgūto tekstu. Tomēr tīri teksta avotiem, piemēram, emuāra ierakstiem vai koda krātuvēm, tikai teksta RAG darbojas tikpat labi bez papildu izmaksām.

Izmaksas un infrastruktūra

Vizuālais RAG prasa vairāk no jūsu infrastruktūras. Attēlu iegulšanas glabāšana aizņem vairāk vietas diskā, vizuālo kodētāju, piemēram, ColPali, efektīvai darbībai ir nepieciešamas grafiskās procesoras, un attēlu ievadīšana valodu modeļos patērē daudz vairāk žetonu nekā vienkārša teksta. Tikai teksta RAG joprojām ir budžetam draudzīga izvēle lielākajai daļai komandu, īpaši strādājot ar lieliem rakstu vai dokumentācijas korpusiem, kuriem nav nepieciešama vizuāla interpretācija.

Lietošanas gadījums piemērots

Izvēlieties vizuālo RAG, ja jūsu zināšanu bāzē ir skenēti PDF faili, slaidu komplekti, produktu katalogi ar fotoattēliem vai jebkurš saturs, kurā vizuālajam izkārtojumam ir nozīme. Tikai teksta RAG lieliski piemērots klientu atbalsta wiki, juridiskiem līgumiem vienkāršā tekstā, koda dokumentācijai un sarunu aģentiem, kur ātrums un izmaksas ir svarīgākas par vizuālo precizitāti. Daudzas ražošanas sistēmas tagad apvieno abus, izgūstot tekstu dažiem vaicājumiem un attēlus citiem.

Modeļu saderība

Vizuālajam RAG ir nepieciešams multimodāls modelis, kas spēj apstrādāt attēlus, piemēram, GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro vai atvērtā pirmkoda alternatīvas, piemēram, LLaVA un Qwen-VL. Tikai teksta RAG darbojas praktiski ar jebkuru valodas modeli, tostarp mazākiem atvērtā koda modeļiem, piemēram, Llama 3 8B vai Mistral 7B, padarot to pieejamu pat pieticīgā aparatūrā. Šī saderības atšķirība sarūk, jo arvien vairāk modeļu iegūst redzes iespējas, taču tikai teksta iestatījumi joprojām piedāvā plašākas izvietošanas iespējas mūsdienās.

Priekšrocības un trūkumi

RAG ar vizuālo kontekstu

Iepriekšējumi

+ Apstrādā diagrammas un diagrammas
+ Apiet OCR ierobežojumus
+ Labāka dokumentu izpratne
+ Ietver izkārtojuma informāciju

Ievietots

− Augstākas infrastruktūras izmaksas
− Lēnāka izguves latentuma
− Nepieciešami multimodāli modeļi
− Lielāka uzglabāšanas platība

RAG ar tikai teksta kontekstu

Iepriekšējumi

+ Vienkārši izvietot
+ Zemākas ekspluatācijas izmaksas
+ Darbojas ar jebkuru LLM
+ Nobriedusi instrumentu ekosistēma

Ievietots

− Grūtības ar vizuālajiem efektiem
− Atkarīgs no OCR kvalitātes
− Nepamana izkārtojuma norādes
− Vājāka dokumentos, kuros ir daudz attēlu

Biežas maldības

Mīts

Vizuālā RAG pilnībā aizstāj tikai teksta RAG.

Realitāte

Vizuālā RAG papildina, nevis aizstāj tikai teksta pieejas. Tīri tekstuāliem korpusiem, piemēram, rakstiem vai kodam, tikai teksta izguve joprojām ir ātrāka un tikpat precīza. Lielākā daļa ražošanas sistēmu gūst labumu no hibrīda iestatījuma, kas novirza vaicājumus uz atbilstošo izguvēju.

Mīts

Tikai teksta RAG vispār nevar apstrādāt dokumentus ar attēliem.

Realitāte

Tikai tekstu saturošs RAG joprojām var apstrādāt attēlus saturošus dokumentus, vispirms palaižot OCR un indeksējot iegūto tekstu. Kvalitāte ir ļoti atkarīga no OCR procesa, un sarežģīti izkārtojumi bieži vien zaudē nozīmi, taču šī ir piemērota pieeja daudziem lietošanas gadījumiem.

Mīts

Vizuālā RAG metode vienmēr sniedz labākas atbildes nekā tikai teksta RAG metode.

Realitāte

Vizuālā RAG metode pārspēj tikai teksta RAG metodi tikai tad, ja iegūtā vizuālā informācija faktiski ir atbilstoša vaicājumam. Jautājumiem par prozu, kodu vai strukturētu tekstu attēlu pievienošana var radīt troksni un palielināt izmaksas, neuzlabojot precizitāti.

Mīts

Lai veiktu vizuālo RAG, nepieciešams GPT-4V vai Gemini.

Realitāte

Atvērtā pirmkoda modeļi, piemēram, LLaVA, Qwen-VL, InternVL un MiniCPM-V, var efektīvi apstrādāt vizuālos RAG uzdevumus. Mazāki redzes kodētāji apvienojumā ar izgūšanas rīkiem, piemēram, ColPali, darbojas uz patērētāju GPU, padarot vizuālo RAG pieejamu bez patentētām API.

Mīts

Visual RAG ir pārāk dārgs lietošanai ražošanā.

Realitāte

Lai gan vizuālā RAG apstrāde izmaksā vairāk nekā tikai teksta apstrāde, tādas metodes kā attēlu saspiešana, iegultā kešatmiņa un selektīva izguve ļauj izmaksas pārvaldīt. Dokumentu apstrādes nozarēs, piemēram, juridiskajā, veselības aprūpes un finanšu jomā, precizitātes pieaugums bieži vien attaisno izdevumus.

Bieži uzdotie jautājumi

Kāda ir galvenā atšķirība starp vizuālo RAG un tikai teksta RAG?

Visual RAG izgūst attēlus, dokumentu lapas un vizuālo saturu, lai iegūtu valodas modeļa atbildes, savukārt tikai teksta RAG izgūst tikai rakstiskas daļas. Visual RAG izmanto multimodālus iegulšanas veidus, lai izprastu izkārtojumu, diagrammas un attēlus, savukārt tikai teksta RAG paļaujas uz teksta iegulšanu un bieži vien skenētiem dokumentiem ir nepieciešama OCR.

Vai vizuālais RAG ir precīzāks nekā tikai teksta RAG?

Vizuālā RAG metode parasti ir precīzāka uzdevumos, kas ietver diagrammas, diagrammas, skenētus dokumentus un vizuālas atbildes uz jautājumiem. Tādi salīdzinošie testi kā DocVQA un ChartQA uzrāda ievērojamus uzlabojumus, pievienojot vizuālu izgūšanu. Tomēr tīri tekstuālu vaicājumu gadījumā abas pieejas darbojas līdzīgi.

Vai es varu izmantot vizuālo RAG ar atvērtā koda modeļiem?

Jā, atvērtā pirmkoda modeļi, piemēram, LLaVA, Qwen-VL, InternVL un MiniCPM-V, atbalsta vizuālās RAG darbplūsmas. Apvienojumā ar tādiem izgūšanas rīkiem kā ColPali vai ColQwen varat veidot pilnībā atvērtā pirmkoda vizuālās RAG plūsmas, kas darbojas lokālos GPU, neizmantojot patentētas API.

Vai vizuālā RAG tehnoloģija novērš nepieciešamību pēc OCR?

Vizuālā RAG bieži vien novērš OCR, tieši izgūstot dokumentu lapas kā attēlus un ļaujot vizuālās valodas modelim tos interpretēt. Tas novērš OCR kļūdas sarežģītos izkārtojumos, rokrakstā vai zemas kvalitātes skenējumos. Dažas hibrīdsistēmas joprojām izmanto OCR metadatu indeksēšanai, vienlaikus paļaujoties uz vizuālu faktiskā satura izgūšanu.

Cik maksā vizuālais RAG salīdzinājumā ar tikai teksta RAG?

Vizuālais RAG parasti izmaksā 3 līdz 10 reizes vairāk nekā tikai teksta RAG attēlu glabāšanas, redzes kodētāja skaitļošanas un lielāka tokenu izmantošanas dēļ, barojot attēlus valodu modeļiem. Izmaksas atšķiras atkarībā no dokumenta lieluma, izguves biežuma un no tā, vai izmantojat mitinātus API vai pašmitinātus modeļus.

Kas ir ColPali un kā tas ir saistīts ar vizuālo RAG?

ColPali ir dokumentu izguves modelis, kas tika ieviests 2024. gadā un apstrādā dokumentu lapas kā attēlus, kā arī izmanto vizuālos kodētājus, piemēram, PaliGemma, lai izveidotu iegultos failus. Tas bija pirmais vizuālo dokumentu izguves pieejas ieviesējs, kas nodrošina daudzas mūsdienu vizuālās RAG sistēmas, īpaši zināšanu bāzēm ar lielu PDF apjomu.

Kad man vajadzētu izvēlēties tikai teksta RAG, nevis vizuālo RAG?

Izvēlieties tikai teksta RAG, ja jūsu zināšanu bāze sastāv no tīra teksta, piemēram, rakstiem, koda, bieži uzdotajiem jautājumiem vai tērzēšanas žurnāliem. Tā ir arī labāka izvēle, ja budžets ir ierobežots, latentums ir svarīgs vai jūs ieviešat mazākos modeļos bez redzamības iespējām. Tikai teksta RAG ir drošāks noklusējuma iestatījums lielākajai daļai tradicionālo tērzēšanas robotu un meklēšanas lietojumprogrammu.

Vai vizuālo RAG un tikai teksta RAG var apvienot?

Jā, hibrīdās RAG sistēmas apvieno abas pieejas, palaižot paralēlus izgūšanas rīkus un apvienojot rezultātus vai novirzot vaicājumus uz atbilstošo izgūšanas rīku, pamatojoties uz jautājuma veidu. Tas sniedz jums tikai teksta izgūšanas izmaksu priekšrocības vienkāršiem vaicājumiem un vizuālās izgūšanas precizitātes priekšrocības jautājumiem ar lielu dokumentu daudzumu.

Kādi ir labākie vizuālā RAG novērtēšanas kritēriji?

Bieži sastopamie kritēriji ir DocVQA dokumentu izpratnei, ChartQA uz diagrammām balstītiem jautājumiem, MMMU multimodālai spriešanai un InfoVQA infografiku izpratnei. Tikai teksta RAG populāri kritēriji ir Natural Questions, TriviaQA un HotpotQA.

Vai man ir nepieciešams multimodāls LLM, lai izmantotu vizuālo RAG?

Jā, vizuālajam RAG ir nepieciešams valodas modelis, kas var apstrādāt attēlus, piemēram, GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro vai atvērtā pirmkoda alternatīvas, piemēram, LLaVA un Qwen-VL. Tīra teksta modeļi, piemēram, bāzes GPT-4 vai Llama 3, nevar interpretēt izgūtos attēlus, tāpēc tie darbojas tikai ar tikai teksta RAG.

Spriedums

Izvēlieties vizuālo RAG, ja jūsu datos ir daudz attēlu vai ja izkārtojumam, diagrammām un diagrammām ir kritiska nozīme — tas ir nepārprotams uzvarētājs dokumentu mākslīgajam intelektam un vizuālām jautājumu atbildēm. Tradicionālām zināšanu bāzēm, ātrākai ieviešanai un zemākām izmaksām izvēlieties tikai teksta RAG, īpaši, ja jūsu saturs jau ir tīra teksta formātā. Daudzas komandas uzskata, ka vislabāk darbojas hibrīda pieeja, ļaujot vaicājuma tipam izlemt, kuru izguves ceļu izmantot.

Saistītie salīdzinājumi

A/B testēšana modeļu rādīšanā salīdzinājumā ar viena modeļa ieviešanu

A/B testēšana modeļu apkalpošanā novirza trafiku starp konkurējošām modeļu versijām, lai novērtētu reālo veiktspēju, savukārt viena modeļa ieviešana visiem lietotājiem nosūta vienu modeli. Komandas izvēlas starp tiem, pamatojoties uz riska toleranci, trafika apjomu un statistiskās validācijas nepieciešamību pirms pilnīgas ieviešanas.

A/B testēšana satura izlaidumos salīdzinājumā ar vienreizējiem satura izlaidumiem

A/B testēšana satura izlaidumos ietver variāciju ieviešanu dažādiem auditorijas segmentiem un veiktspējas mērīšanu, savukārt vienreizēji satura izlaidumi vienlaikus nodrošina vienu versiju visiem lietotājiem. Katra pieeja atbilst dažādiem mērķiem, A/B testēšanai dodot priekšroku uz datiem balstītai optimizācijai, bet vienreizējiem izlaidumiem prioritāte ir ātrums un vienkāršība.

Adaptīvā izguve salīdzinājumā ar statisko izguves cauruļvadiem

Adaptīvā izguve dinamiski pielāgo, kā un kādu informāciju sistēma izgūst, pamatojoties uz vaicājumu, savukārt statiskās izguves cauruļvadi ievēro fiksētus noteikumus neatkarīgi no konteksta. Abas nodrošina modernas mākslīgā intelekta lietojumprogrammas, taču tās ievērojami atšķiras pēc elastības, izmaksām un precizitātes. Izvēle starp tām ir atkarīga no darba slodzes sarežģītības un budžeta.

Adaptīvais intelekts pret fiksētas uzvedības sistēmām

Šajā detalizētajā salīdzinājumā tiek pētītas adaptīvo intelekta dzinēju arhitektūras atšķirības, darbības ierobežojumi un reālā veiktspēja salīdzinājumā ar fiksētas uzvedības automatizācijas sistēmām. Mēs aplūkojam, kā sistēmas, kas nepārtraukti mācās no jauniem vides datiem, atbilst stingrām, paredzamām, uz noteikumiem balstītām sistēmām.

Aģentu apmācība vidēs salīdzinājumā ar bezsaistes datu kopu apmācību

Aģentu apmācība vidēs ietver mācīšanos, izmantojot reāllaika mijiedarbību ar simulētu vai fizisku vidi, savukārt bezsaistes datu kopu apmācība balstās uz iepriekš apkopotiem datiem bez papildu piekļuves videi. Abas pieejas apmāca mašīnmācīšanās modeļus, taču būtiski atšķiras tas, kā aģenti apkopo pieredzi un uzlabo veiktspēju.