कृत्रिम बुद्धिमत्ताचिंध्याबहुविध-एआयपुनर्प्राप्ती-संवर्धित-पिढीएलएलएमसंगणक-दृष्टी

दृश्य संदर्भासह RAG विरुद्ध केवळ मजकूर संदर्भासह RAG

दृश्य संदर्भासहित RAG, मजकुरासोबत प्रतिमा, चार्ट आणि आकृत्या मिळवून भाषा मॉडेल्सना समृद्ध करते, तर केवळ मजकूर-आधारित RAG फक्त लिखित उताऱ्यांवर अवलंबून असते. दृश्य RAG दस्तऐवज आकलन आणि दृश्य प्रश्नोत्तर यांसारख्या बहुविध माध्यमांच्या कार्यांमध्ये उत्कृष्ट ठरते, तर केवळ मजकूर-आधारित RAG तैनात करण्यासाठी अधिक सोपे, जलद आणि स्वस्त राहते.

ठळक मुद्दे

व्हिज्युअल रॅग पृष्ठांना थेट प्रतिमा म्हणून मिळवून OCR त्रुटी दूर करते.
पूर्णपणे लिखित स्वरूपाच्या नॉलेज बेससाठी टेक्स्ट-ओन्ली RAG अधिक वेगवान आणि स्वस्त ठरते.
मल्टीमोडल बेंचमार्क चार्ट आणि दस्तऐवजांशी संबंधित कामांसाठी सातत्याने व्हिज्युअल रिट्रीव्हलला प्राधान्य देतात.
उत्पादन प्रणालींसाठी हायब्रीड पाइपलाइन हा एक व्यावहारिक मध्यम मार्ग म्हणून उदयास येत आहे.

दृश्य संदर्भासह RAG काय आहे?

एक पुनर्प्राप्ती-संवर्धित निर्मिती पद्धत जी भाषा मॉडेलच्या प्रतिसादांना आधार देण्यासाठी प्रतिमा, आकृत्या आणि दृश्य डेटा वापरते.

व्हिज्युअल रॅग सिस्टीम बहुविध तर्काला समर्थन देण्यासाठी ज्ञानकोशांमधून मजकूर आणि दृश्य दोन्ही प्रकारची सामग्री मिळवतात.
GPT-4V, Gemini, आणि LLaVA सारखे मॉडेल मिळवलेल्या प्रतिमांवर थेट त्यांच्या संदर्भ विंडोमध्ये प्रक्रिया करू शकतात.
ColPali आणि ColQwen यांनी पारंपरिक OCR पाइपलाइनला बगल देऊन, पानांना प्रतिमा म्हणून हाताळणारी दस्तऐवज पुनर्प्राप्ती सादर केली.
व्हिज्युअल रॅग हे चार्ट, इन्फोग्राफिक्स, वैज्ञानिक आकृत्या आणि स्कॅन केलेले दस्तऐवज समजून घेण्यासाठी विशेषतः प्रभावी आहे.
MMMU आणि DocVQA सारखे बेंचमार्क दाखवतात की जेव्हा केवळ मजकूर असलेल्या पाइपलाइनमध्ये व्हिज्युअल रिट्रीव्हल जोडले जाते तेव्हा मोजता येण्याजोगी सुधारणा दिसून येते.

केवळ मजकूर संदर्भासह RAG काय आहे?

एक पारंपरिक पुनर्प्राप्ती-संवर्धित निर्मिती सेटअप, जो केवळ दस्तऐवजांमधील लिखित उताऱ्यांचा वापर करून भाषा मॉडेल्सना आधार देतो.

रिट्रीव्हल-ऑगमेंटेड जनरेशनची ओळख करून देणाऱ्या मूळ २०२० च्या लुईस एट अल. यांच्या शोधनिबंधामुळे टेक्स्ट-ओन्ली RAG लोकप्रिय झाले.
ते सामान्यतः चंक्सना वेक्टर रिप्रेझेंटेशनमध्ये रूपांतरित करण्यासाठी OpenAI text-embedding-3 किंवा BGE सारख्या एम्बेडिंग मॉडेल्सचा वापर करते.
सामान्यतः टेक्स्ट कॉर्पोरावर डेन्स वेक्टर सर्च, BM25 किंवा हायब्रीड पद्धतींद्वारे पुनर्प्राप्ती केली जाते.
आज बहुतेक प्रोडक्शन चॅटबॉट्स, एंटरप्राइझ सर्च टूल्स आणि कस्टमर सपोर्ट असिस्टंट्स हे टेक्स्ट-ओन्ली RAG वर चालतात.
LangChain, LlamaIndex, आणि Haystack सारखे फ्रेमवर्क मूळतः केवळ मजकूर पुनर्प्राप्ती पाइपलाइनवर आधारित तयार केले गेले होते.

तुलना सारणी

वैशिष्ट्ये	दृश्य संदर्भासह RAG	केवळ मजकूर संदर्भासह RAG
इनपुट मोडॅलिटी	मजकूर + प्रतिमा + दृश्य डेटा	फक्त मजकूर
पुनर्प्राप्ती पद्धत	बहुविध एम्बेडिंग (उदा., ColPali, CLIP)	मजकूर एम्बेडिंग (उदा., BGE, OpenAI ada)
यासाठी सर्वोत्तम	चार्ट, आकृत्या, स्कॅन केलेली कागदपत्रे, व्हिज्युअल गुणवत्ता तपासणी	लेख, वारंवार विचारले जाणारे प्रश्न, कोड, संरचित मजकूर
गुंतागुंत	उच्च — व्हिजन एन्कोडर आणि अधिक स्टोरेजची आवश्यकता आहे	खालचा भाग — सोप्या पाइपलाइन आणि इंडेक्सिंग
खर्च	इमेज प्रोसेसिंग आणि टोकन वापरामुळे जास्त	खाली, विशेषतः लहान मजकूर तुकड्यांसह
विलंब	इमेज एन्कोडिंगमुळे किंचित जास्त	साधारणपणे अधिक वेगवान
OCR अवलंबित्व	थेट प्रतिमा पुनर्प्राप्तीद्वारे अनेकदा काढून टाकले जाते	स्कॅन केलेल्या किंवा प्रतिमा-आधारित PDF साठी आवश्यक
उदाहरण मॉडेल	GPT-4V, मिथुन 1.5, LLaVA, Qwen-VL	जीपीटी-४, क्लॉड, मिस्ट्रल, लामा ३

तपशीलवार तुलना

पुनर्प्राप्ती पाइपलाइनमधील फरक

केवळ मजकूर-आधारित RAG एका प्रचलित मार्गाचे अनुसरण करते: दस्तऐवजांचे तुकडे केले जातात, त्यांना वेक्टर्समध्ये एम्बेड केले जाते आणि साम्य शोधासाठी डेटाबेसमध्ये संग्रहित केले जाते. व्हिज्युअल RAG एक मूलभूतपणे वेगळा दृष्टिकोन स्वीकारते, ज्यात संपूर्ण पृष्ठे किंवा प्रतिमा व्हिज्युअल एम्बेडिंग म्हणून एन्कोड केल्या जातात. यामुळे प्रणालीला केवळ शब्दांऐवजी मांडणी, आलेख आणि आकृत्यांच्या आधारावर माहिती मिळवता येते. या बदलामुळे व्हिज्युअल RAG आलेख, तक्ते किंवा हस्तलिखित नोंदींमध्ये असलेली माहिती शोधू शकते, जी OCR द्वारे विद्रूप केली जाऊ शकते.

बहुविध दस्तऐवजांवरील अचूकता

जेव्हा दस्तऐवजांमध्ये आर्थिक चार्ट, अभियांत्रिकी आकृत्या किंवा वैद्यकीय प्रतिमांसारखी समृद्ध दृश्ये असतात, तेव्हा व्हिज्युअल RAG केवळ मजकूर-आधारित पद्धतींपेक्षा अधिक चांगली कामगिरी करते. DocVQA आणि ChartQA बेंचमार्कवरील अभ्यासातून असे दिसून आले आहे की, मजकुरासोबत मिळवलेल्या प्रतिमा प्राप्त करणारे मॉडेल, केवळ काढलेल्या मजकुरावर अवलंबून असलेल्या मॉडेलपेक्षा प्रश्नांची अधिक अचूक उत्तरे देतात. तथापि, ब्लॉग पोस्ट किंवा कोड रिपॉझिटरीजसारख्या पूर्णपणे मजकूर-आधारित स्रोतांसाठी, केवळ मजकूर-आधारित RAG कोणत्याही अतिरिक्त भाराशिवाय तितकीच चांगली कामगिरी करते.

खर्च आणि पायाभूत सुविधा

व्हिज्युअल RAG तुमच्या पायाभूत सुविधांवर अधिक भार टाकते. इमेज एम्बेडिंग साठवण्यासाठी जास्त डिस्क स्पेस लागते, ColPali सारख्या व्हिजन एन्कोडर्सना कार्यक्षमतेने चालवण्यासाठी GPU ची आवश्यकता असते, आणि लँग्वेज मॉडेल्समध्ये इमेजेस फीड करण्यासाठी साध्या टेक्स्टपेक्षा खूप जास्त टोकन्स लागतात. बहुतेक टीम्ससाठी, विशेषतः जेव्हा व्हिज्युअल इंटरप्रिटेशनची आवश्यकता नसलेल्या लेखांच्या किंवा डॉक्युमेंटेशनच्या मोठ्या कॉर्पोरासोबत काम करायचे असते, तेव्हा टेक्स्ट-ओन्ली RAG हा एक किफायतशीर पर्याय ठरतो.

वापराच्या केसशी जुळणारे

जेव्हा तुमच्या नॉलेज बेसमध्ये स्कॅन केलेले PDF, स्लाईड डेक, फोटोंसहित उत्पादन कॅटलॉग किंवा अशी कोणतीही सामग्री समाविष्ट असते जिथे दृश्य मांडणीला महत्त्व असते, तेव्हा व्हिज्युअल RAG निवडा. केवळ मजकूर-आधारित RAG हे कस्टमर सपोर्ट विकी, साध्या मजकुरातील कायदेशीर करार, कोड डॉक्युमेंटेशन आणि संभाषणात्मक एजंटसाठी उत्तम ठरते, जिथे दृश्य सुस्पष्टतेपेक्षा वेग आणि खर्च अधिक महत्त्वाचे असतात. अनेक प्रोडक्शन सिस्टीम आता या दोन्हींचा मेळ घालतात, ज्यात काही प्रश्नांसाठी मजकूर आणि इतरांसाठी प्रतिमा मिळवल्या जातात.

मॉडेल सुसंगतता

व्हिज्युअल रॅगसाठी प्रतिमांवर प्रक्रिया करण्यास सक्षम असलेल्या मल्टीमोडल मॉडेलची आवश्यकता असते, जसे की GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro, किंवा LLaVA आणि Qwen-VL सारखे ओपन-सोर्स पर्याय. टेक्स्ट-ओन्ली रॅग अक्षरशः कोणत्याही लँग्वेज मॉडेलसोबत काम करते, ज्यात Llama 3 8B किंवा Mistral 7B सारख्या लहान ओपन-वेट मॉडेल्सचा समावेश आहे, ज्यामुळे ते सामान्य हार्डवेअरवरही वापरता येते. जसजसे अधिक मॉडेल्स व्हिजन क्षमता मिळवत आहेत, तसतशी ही सुसंगततेतील तफावत कमी होत आहे, परंतु आजही टेक्स्ट-ओन्ली सेटअप्स अधिक व्यापक वापराचे पर्याय देतात.

गुण आणि दोष

दृश्य संदर्भासह RAG

गुणदोष

+ चार्ट आणि आकृत्या हाताळते
+ OCR मर्यादांना बगल देते
+ दस्तऐवजाचे अधिक चांगले आकलन
+ लेआउट माहिती कॅप्चर करते

संरक्षित केले

− पायाभूत सुविधांचा वाढीव खर्च
− धीम्या पुनर्प्राप्ती विलंब
− बहुविध मॉडेलची आवश्यकता आहे
− मोठी साठवणूक जागा

केवळ मजकूर संदर्भासह RAG

गुणदोष

+ तैनात करण्यास सोपे
+ कमी परिचालन खर्च
+ कोणत्याही एलएलएम सोबत काम करते
+ परिपक्व साधन परिसंस्था

संरक्षित केले

− दृश्यांशी संबंधित अडचणी
− OCR च्या गुणवत्तेवर अवलंबून आहे
− लेआउटच्या सूचना चुकवतो
− जास्त प्रतिमा असलेल्या दस्तऐवजांच्या बाबतीत कमकुवत

सामान्य गैरसमजुती

मिथ

व्हिज्युअल रॅग हे टेक्स्ट-ओन्ली रॅगची जागा पूर्णपणे घेते.

वास्तव

व्हिज्युअल RAG हे केवळ मजकूर-आधारित पद्धतींची जागा घेण्याऐवजी त्यांना पूरक ठरते. लेख किंवा कोड यांसारख्या पूर्णपणे मजकूर-आधारित संकलनांसाठी, केवळ मजकूर-आधारित पुनर्प्राप्ती अजूनही अधिक वेगवान आणि तितकीच अचूक आहे. बहुतेक उत्पादन प्रणालींना हायब्रीड सेटअपचा फायदा होतो, जो क्वेरींना योग्य रिट्रीव्हरकडे पाठवतो.

मिथ

केवळ मजकूर असलेला RAG, प्रतिमा असलेल्या दस्तऐवजांना अजिबात हाताळू शकत नाही.

वास्तव

केवळ मजकूर असलेले RAG (Text-only RAG) सुद्धा, आधी OCR चालवून आणि त्यातून काढलेल्या मजकुराची सूची तयार करून, प्रतिमा असलेल्या दस्तऐवजांवर प्रक्रिया करू शकते. याची गुणवत्ता मोठ्या प्रमाणावर OCR पाइपलाइनवर अवलंबून असते आणि गुंतागुंतीच्या मांडणीमुळे अनेकदा अर्थहीनता येते, परंतु बऱ्याच उपयोगांसाठी हा एक व्यवहार्य दृष्टिकोन आहे.

मिथ

केवळ मजकूर असलेल्या RAG पेक्षा व्हिज्युअल RAG नेहमीच अधिक चांगली उत्तरे देतो.

वास्तव

जेव्हा मिळवलेली दृश्य माहिती खरोखरच क्वेरीशी संबंधित असते, तेव्हाच व्हिज्युअल RAG हे टेक्स्ट-ओन्ली RAG पेक्षा सरस ठरते. गद्य, कोड किंवा संरचित मजकुराविषयीच्या प्रश्नांसाठी, प्रतिमा जोडल्याने अचूकता न सुधारता अनावश्यक गोंधळ निर्माण होऊ शकतो आणि खर्च वाढू शकतो.

मिथ

व्हिज्युअल रॅग करण्यासाठी तुम्हाला GPT-4V किंवा जेमिनीची आवश्यकता आहे.

वास्तव

LLaVA, Qwen-VL, InternVL, आणि MiniCPM-V सारखे ओपन-सोर्स मॉडेल्स व्हिज्युअल RAG ची कामे प्रभावीपणे हाताळू शकतात. ColPali सारख्या रिट्रीव्हर्ससोबत जोडलेले लहान व्हिजन एन्कोडर्स ग्राहक GPU वर चालतात, ज्यामुळे मालकी हक्काच्या API शिवाय व्हिज्युअल RAG वापरता येते.

मिथ

व्हिज्युअल रॅग उत्पादन वापरासाठी खूप महाग आहे.

वास्तव

जरी व्हिज्युअल RAG चा खर्च केवळ मजकूर-आधारित RAG पेक्षा जास्त असला तरी, इमेज कॉम्प्रेशन, एम्बेडिंग कॅशिंग आणि सिलेक्टिव्ह रिट्रीव्हल यांसारखी तंत्रे खर्च आवाक्यात ठेवतात. कायदेशीर, आरोग्यसेवा आणि वित्त यांसारख्या, कागदपत्रांचा मोठ्या प्रमाणावर वापर होणाऱ्या उद्योगांसाठी, अचूकतेतील वाढ अनेकदा खर्चाचे समर्थन करते.

वारंवार विचारले जाणारे प्रश्न

व्हिज्युअल RAG आणि टेक्स्ट-ओन्ली RAG यांच्यामधील मुख्य फरक काय आहे?

व्हिज्युअल RAG भाषा मॉडेलच्या प्रतिसादांना आधार देण्यासाठी प्रतिमा, दस्तऐवजाची पृष्ठे आणि दृश्य सामग्री मिळवते, तर टेक्स्ट-ओन्ली RAG फक्त लिखित उतारे मिळवते. व्हिज्युअल RAG मांडणी, चार्ट आणि आकृत्या समजून घेण्यासाठी मल्टीमोडल एम्बेडिंगचा वापर करते, तर टेक्स्ट-ओन्ली RAG टेक्स्ट एम्बेडिंगवर अवलंबून असते आणि स्कॅन केलेल्या दस्तऐवजांसाठी अनेकदा OCR ची आवश्यकता असते.

व्हिज्युअल RAG हे टेक्स्ट-ओन्ली RAG पेक्षा अधिक अचूक आहे का?

चार्ट, आकृत्या, स्कॅन केलेली कागदपत्रे आणि व्हिज्युअल प्रश्नोत्तरे यांचा समावेश असलेल्या कार्यांमध्ये व्हिज्युअल RAG अधिक अचूक ठरते. जेव्हा व्हिज्युअल रिट्रीव्हल जोडले जाते, तेव्हा DocVQA आणि ChartQA सारखे बेंचमार्क लक्षणीय सुधारणा दर्शवतात. तथापि, केवळ मजकूर-आधारित प्रश्नांसाठी, दोन्ही पद्धतींची कामगिरी सारखीच असते.

मी ओपन-सोर्स मॉडेल्ससोबत व्हिज्युअल RAG वापरू शकतो का?

होय, LLaVA, Qwen-VL, InternVL आणि MiniCPM-V सारखे ओपन-सोर्स मॉडेल्स व्हिज्युअल RAG वर्कफ्लोला सपोर्ट करतात. ColPali किंवा ColQwen सारख्या रिट्रीव्हर्ससोबत वापरल्यास, तुम्ही प्रोप्रायटरी API वर अवलंबून न राहता लोकल GPU वर चालणाऱ्या पूर्णपणे ओपन-सोर्स व्हिज्युअल RAG पाइपलाइन्स तयार करू शकता.

व्हिज्युअल RAG मुळे OCR ची गरज नाहीशी होते का?

व्हिज्युअल RAG अनेकदा दस्तऐवजाची पृष्ठे थेट प्रतिमा म्हणून मिळवून आणि व्हिजन-लँग्वेज मॉडेलला त्यांचे विश्लेषण करू देऊन OCR ची गरज टाळते. यामुळे गुंतागुंतीची मांडणी, हस्तलेखन किंवा कमी-गुणवत्तेच्या स्कॅनवरील OCR त्रुटी टाळता येतात. काही हायब्रीड प्रणाली अजूनही मेटाडेटाच्या अनुक्रमणिकेसाठी OCR वापरतात, तर प्रत्यक्ष मजकुरासाठी व्हिज्युअल पुनर्प्राप्तीवर अवलंबून राहतात.

टेक्स्ट-ओन्ली RAG च्या तुलनेत व्हिज्युअल RAG ची किंमत किती असते?

इमेज स्टोरेज, व्हिजन एन्कोडर कम्प्युट आणि लँग्वेज मॉडेल्सना इमेजेस देताना होणारा जास्त टोकन वापर यांमुळे व्हिज्युअल RAG चा खर्च सामान्यतः टेक्स्ट-ओन्ली RAG पेक्षा ३ ते १० पट जास्त असतो. हा खर्च डॉक्युमेंटचा आकार, डेटा मिळवण्याची वारंवारता आणि तुम्ही होस्टेड API वापरता की सेल्फ-होस्टेड मॉडेल्स वापरता यावर अवलंबून असतो.

ColPali म्हणजे काय आणि त्याचा व्हिज्युअल RAG शी काय संबंध आहे?

कोलपाली हे २०२४ मध्ये सादर केलेले एक डॉक्युमेंट रिट्रीव्हल मॉडेल आहे, जे डॉक्युमेंटच्या पानांना प्रतिमा म्हणून मानते आणि एम्बेडिंग तयार करण्यासाठी पालीजेमासारख्या व्हिजन एन्कोडरचा वापर करते. याने व्हिज्युअल डॉक्युमेंट रिट्रीव्हल पद्धतीचा पाया घातला, जी अनेक आधुनिक व्हिज्युअल RAG सिस्टीम्सना, विशेषतः PDF-बहुल नॉलेज बेससाठी, शक्ती देते.

मी व्हिज्युअल RAG ऐवजी टेक्स्ट-ओन्ली RAG केव्हा निवडावा?

जेव्हा तुमच्या नॉलेज बेसमध्ये लेख, कोड, नेहमी विचारले जाणारे प्रश्न (FAQs) किंवा चॅट लॉग्स यांसारखा स्वच्छ मजकूर असतो, तेव्हा टेक्स्ट-ओन्ली RAG निवडा. जेव्हा बजेट कमी असते, लेटन्सी महत्त्वाची असते किंवा तुम्ही व्हिजन क्षमता नसलेल्या लहान मॉडेल्सवर डिप्लॉय करत असाल, तेव्हाही हा एक चांगला पर्याय आहे. बहुतेक पारंपरिक चॅटबॉट आणि सर्च ॲप्लिकेशन्ससाठी टेक्स्ट-ओन्ली RAG हा एक अधिक सुरक्षित डिफॉल्ट पर्याय आहे.

व्हिज्युअल RAG आणि टेक्स्ट-ओन्ली RAG एकत्र करता येतात का?

होय, हायब्रीड RAG सिस्टीम समांतर रिट्रीव्हर्स चालवून आणि परिणाम एकत्र करून, किंवा प्रश्नाच्या प्रकारानुसार क्वेरीज योग्य रिट्रीव्हरकडे पाठवून, दोन्ही पद्धती एकत्र करतात. यामुळे तुम्हाला सोप्या क्वेरीजसाठी केवळ मजकूर-आधारित पुनर्प्राप्तीचे खर्चाचे फायदे आणि जास्त दस्तऐवज असलेल्या प्रश्नांसाठी दृश्य पुनर्प्राप्तीचे अचूकतेचे फायदे मिळतात.

व्हिज्युअल RAG चे मूल्यांकन करण्यासाठी सर्वोत्तम मापदंड कोणते आहेत?

सामान्य बेंचमार्कमध्ये दस्तऐवज समजण्यासाठी डॉकव्हीक्यूए (DocVQA), चार्ट-आधारित प्रश्नांसाठी चार्टक्यूए (ChartQA), बहुविध तर्कासाठी एमएमएमयू (MMMU), आणि इन्फोग्राफिक समजण्यासाठी इन्फोव्हीक्यूए (InfoVQA) यांचा समावेश आहे. केवळ मजकूर-आधारित आरएजीसाठी (RAG), लोकप्रिय बेंचमार्कमध्ये नॅचरल क्वेश्चन्स (Natural Questions), ट्रिव्हियाक्यूए (TriviaQA), आणि हॉटपॉटक्यूए (HotpotQA) यांचा समावेश आहे.

व्हिज्युअल RAG वापरण्यासाठी मला मल्टीमोडल LLM ची गरज आहे का?

होय, व्हिज्युअल RAG साठी प्रतिमांवर प्रक्रिया करू शकणाऱ्या लँग्वेज मॉडेलची आवश्यकता असते, जसे की GPT-4V, Claude 3.5 Sonnet, Gemini 1.5 Pro, किंवा LLaVA आणि Qwen-VL सारखे ओपन-सोर्स पर्याय. बेस GPT-4 किंवा Llama 3 सारखे प्युअर टेक्स्ट मॉडेल मिळवलेल्या प्रतिमांचा अर्थ लावू शकत नाहीत, त्यामुळे ते फक्त टेक्स्ट-ओन्ली RAG सोबतच काम करतात.

निकाल

जेव्हा तुमच्या डेटामध्ये प्रतिमांचे प्रमाण जास्त असते किंवा जेव्हा लेआउट, चार्ट्स आणि आकृत्यांना महत्त्वपूर्ण अर्थ असतो, तेव्हा व्हिज्युअल RAG निवडा — डॉक्युमेंट AI आणि व्हिज्युअल प्रश्नोत्तरांसाठी हा एक स्पष्ट विजेता आहे. पारंपरिक नॉलेज बेस, जलद डिप्लॉयमेंट आणि कमी खर्चासाठी केवळ मजकूर-आधारित RAG वापरा, विशेषतः जेव्हा तुमची सामग्री आधीच स्वच्छ मजकूर स्वरूपात असेल. अनेक टीम्सना हायब्रीड पद्धत सर्वोत्तम वाटते, ज्यात क्वेरीचा प्रकार कोणता पुनर्प्राप्ती मार्ग निवडायचा हे ठरवतो.

दृश्य संदर्भासह RAG विरुद्ध केवळ मजकूर संदर्भासह RAG

ठळक मुद्दे

दृश्य संदर्भासह RAG काय आहे?

केवळ मजकूर संदर्भासह RAG काय आहे?

तुलना सारणी

तपशीलवार तुलना

पुनर्प्राप्ती पाइपलाइनमधील फरक

बहुविध दस्तऐवजांवरील अचूकता

खर्च आणि पायाभूत सुविधा

वापराच्या केसशी जुळणारे

मॉडेल सुसंगतता

गुण आणि दोष

दृश्य संदर्भासह RAG

गुणदोष

संरक्षित केले

केवळ मजकूर संदर्भासह RAG

गुणदोष

संरक्षित केले

सामान्य गैरसमजुती

वारंवार विचारले जाणारे प्रश्न

निकाल

संबंधित तुलना

RAG मधील इमेज ग्राउंडिंग विरुद्ध अनग्राउंडेड टेक्स्ट जनरेशन

अनियंत्रित स्थानिक मॉडेल्स विरुद्ध नियंत्रित व्यावसायिक एपीआय

अनुकूलनशील बुद्धिमत्ता विरुद्ध स्थिर वर्तन प्रणाली

अनुक्रम समांतरीकरण विरुद्ध अनुक्रमिक प्रक्रिया ऑप्टिमायझेशन

अनुक्रमिक निर्णय प्रक्रिया विरुद्ध एक-चरण अंदाज मॉडेल