الذكاء الاصطناعيخرقةالذكاء الاصطناعي متعدد الوسائطجيل معزز بالاسترجاعllmرؤية الحاسوب

رسم RAG مع سياق مرئي مقابل رسم RAG مع سياق نصي فقط

يُثري نظام RAG ذو السياق المرئي نماذج اللغة من خلال استرجاع الصور والرسوم البيانية والمخططات إلى جانب النص، بينما يعتمد نظام RAG النصي فقط على النصوص المكتوبة. يتفوق نظام RAG المرئي في المهام متعددة الوسائط مثل فهم المستندات والإجابة على الأسئلة المرئية، في حين يظل نظام RAG النصي فقط أبسط وأسرع وأقل تكلفة في النشر.

المميزات البارزة

يقوم برنامج Visual RAG بإزالة أخطاء التعرف الضوئي على الأحرف (OCR) عن طريق استرداد الصفحات كصور مباشرة.
يظل نظام RAG النصي فقط أسرع وأرخص بالنسبة لقواعد المعرفة المكتوبة فقط.
تُفضل المعايير متعددة الوسائط باستمرار الاسترجاع المرئي لمهام الرسوم البيانية والمستندات.
تبرز خطوط الأنابيب الهجينة كحل وسط عملي لأنظمة الإنتاج.

ما هو نظام ألوان RAG مع سياق مرئي؟

نهج توليد معزز بالاسترجاع يقوم بسحب الصور والأشكال والبيانات المرئية لتأسيس استجابات نموذج اللغة.

تسترجع أنظمة RAG المرئية المحتوى النصي والمرئي من قواعد المعرفة لدعم الاستدلال متعدد الوسائط.
يمكن لنماذج مثل GPT-4V و Gemini و LLaVA معالجة الصور المسترجعة مباشرة داخل نوافذ السياق الخاصة بها.
قدمت شركتا ColPali و ColQwen تقنية استرجاع المستندات التي تتعامل مع الصفحات كصور، متجاوزة بذلك مسارات التعرف الضوئي على الأحرف التقليدية.
يُعد نظام Visual RAG فعالاً بشكل خاص في فهم المخططات والرسوم البيانية والأرقام العلمية والوثائق الممسوحة ضوئياً.
تُظهر معايير الأداء مثل MMMU و DocVQA مكاسب قابلة للقياس عند إضافة الاسترجاع المرئي إلى مسارات النصوص فقط.

ما هو RAG مع سياق نصي فقط؟

إعداد توليد معزز بالاسترجاع التقليدي يعتمد على نماذج اللغة باستخدام المقاطع المكتوبة فقط من المستندات.

وقد شاع استخدام تقنية RAG النصية فقط من خلال ورقة لويس وآخرون الأصلية لعام 2020 التي قدمت تقنية التوليد المعزز بالاسترجاع.
يستخدم عادةً نماذج التضمين مثل OpenAI text-embedding-3 أو BGE لتحويل الأجزاء إلى تمثيلات متجهة.
يتم إجراء الاسترجاع عادةً من خلال البحث المتجهي الكثيف، أو BM25، أو الطرق الهجينة على مجموعات النصوص.
تعتمد معظم برامج الدردشة الآلية الإنتاجية وأدوات البحث المؤسسية ومساعدي دعم العملاء اليوم على نظام RAG النصي فقط.
تم بناء أطر عمل مثل LangChain و LlamaIndex و Haystack في الأصل حول مسارات استرجاع النصوص فقط.

جدول المقارنة

الميزة	نظام ألوان RAG مع سياق مرئي	RAG مع سياق نصي فقط
طريقة الإدخال	نص + صور + بيانات مرئية	نص فقط
طريقة الاسترجاع	التضمينات متعددة الوسائط (مثل ColPali و CLIP)	تضمينات النص (على سبيل المثال، BGE، OpenAI ada)
الأفضل لـ	الرسوم البيانية، والمخططات، والمستندات الممسوحة ضوئيًا، وضمان الجودة المرئي	مقالات، أسئلة وأجوبة، شفرة برمجية، نص منظم
تعقيد	أعلى - يتطلب أجهزة تشفير الرؤية ومساحة تخزين أكبر	أقل - خطوط أنابيب وفهرسة أبسط
يكلف	أعلى بسبب معالجة الصور واستخدام الرموز المميزة	أسفل، خاصة مع أجزاء نصية صغيرة
كمون	أعلى قليلاً من ترميز الصورة	أسرع بشكل عام
الاعتماد على التعرف الضوئي على الأحرف	غالباً ما يتم التخلص منها عن طريق استرجاع الصور المباشر	مطلوب لملفات PDF الممسوحة ضوئيًا أو القائمة على الصور
نماذج توضيحية	GPT-4V، الجوزاء 1.5، LLaVA، Qwen-VL	GPT-4، كلود، ميسترال، لاما 3

مقارنة مفصلة

اختلافات مسار الاسترجاع

تتبع تقنية RAG النصية مسارًا مألوفًا: حيث تُقسّم المستندات إلى أجزاء، وتُضمّن في متجهات، وتُخزّن في قاعدة بيانات للبحث عن التشابه. أما تقنية RAG المرئية، فتتبنى نهجًا مختلفًا جذريًا، إذ تُشفّر الصفحات أو الصور كاملةً كتضمينات مرئية، مما يسمح للنظام باسترجاع المعلومات بناءً على التخطيط والمخططات والأشكال، وليس الكلمات فقط. هذا التحوّل يعني أن تقنية RAG المرئية قادرة على إيجاد المعلومات الموجودة داخل الرسوم البيانية والجداول والملاحظات المكتوبة بخط اليد، والتي قد تُشوّهها تقنية التعرّف الضوئي على الحروف (OCR).

الدقة في المستندات متعددة الوسائط

عندما تحتوي المستندات على عناصر بصرية غنية، مثل الرسوم البيانية المالية أو المخططات الهندسية أو الصور الطبية، يتفوق أسلوب RAG البصري عادةً على الأساليب النصية فقط. تُظهر الدراسات التي أُجريت على معايير DocVQA وChartQA أن النماذج التي تتلقى الصور المسترجعة مع النص تجيب على الأسئلة بدقة أكبر من تلك التي تعتمد على النص المستخرج فقط. أما بالنسبة للمصادر النصية البحتة، مثل منشورات المدونات أو مستودعات البرامج، فإن أسلوب RAG النصي فقط يؤدي أداءً جيدًا بنفس القدر دون الحاجة إلى عبء إضافي.

التكلفة والبنية التحتية

تتطلب تقنية RAG المرئية مواردَ أكبر من البنية التحتية. فاستخدام تضمينات الصور يتطلب مساحة تخزين أكبر، كما أن برامج ترميز الصور مثل ColPali تحتاج إلى وحدات معالجة رسومية (GPUs) لتعمل بكفاءة، بالإضافة إلى أن إدخال الصور في نماذج اللغة يستهلك عددًا أكبر بكثير من الرموز مقارنةً بالنصوص العادية. لذا، تبقى تقنية RAG النصية الخيار الأمثل من حيث التكلفة لمعظم الفرق، خاصةً عند العمل مع مجموعات كبيرة من المقالات أو الوثائق التي لا تحتاج إلى تفسير مرئي.

ملاءمة حالة الاستخدام

اختر نظام RAG المرئي عندما تتضمن قاعدة معارفك ملفات PDF ممسوحة ضوئيًا، أو عروضًا تقديمية، أو كتالوجات منتجات مع صور، أو أي محتوى يحمل فيه التصميم المرئي دلالة. أما نظام RAG النصي فقط، فهو مثالي لمواقع دعم العملاء، والعقود القانونية المكتوبة بنص عادي، وتوثيق البرامج، وأنظمة المحادثة الآلية حيث تُعدّ السرعة والتكلفة أهم من جودة التصميم المرئي. وتجمع العديد من أنظمة الإنتاج الآن بين النظامين، حيث تسترجع النصوص لبعض الاستعلامات والصور لأخرى.

توافق الطراز

يتطلب نظام RAG المرئي نموذجًا متعدد الوسائط قادرًا على معالجة الصور، مثل GPT-4V أو Claude 3.5 Sonnet أو Gemini 1.5 Pro، أو بدائل مفتوحة المصدر مثل LLaVA وQwen-VL. أما نظام RAG النصي فقط، فيعمل مع جميع نماذج اللغات تقريبًا، بما في ذلك النماذج الصغيرة مفتوحة المصدر مثل Llama 3 8B أو Mistral 7B، مما يجعله متاحًا حتى على الأجهزة ذات المواصفات المتواضعة. يتقلص هذا التفاوت في التوافق مع ازدياد قدرات الرؤية في النماذج، إلا أن أنظمة RAG النصية فقط لا تزال توفر خيارات نشر أوسع حتى اليوم.

الإيجابيات والسلبيات

نظام ألوان RAG مع سياق مرئي

المزايا

+ يتعامل مع المخططات والرسوم البيانية
+ يتجاوز قيود التعرف الضوئي على الأحرف
+ فهم أفضل للوثائق
+ يلتقط معلومات التخطيط

تم

− ارتفاع تكاليف البنية التحتية
− زمن استجابة استرجاع أبطأ
− يحتاج إلى نماذج متعددة الوسائط
− مساحة تخزين أكبر

RAG مع سياق نصي فقط

المزايا

+ سهل النشر
+ انخفاض تكلفة التشغيل
+ يعمل مع أي برنامج ماجستير في القانون
+ نظام بيئي ناضج للأدوات

تم

− صعوبات في التعامل مع الصور
− يعتمد ذلك على جودة التعرف الضوئي على الأحرف
− إشارات تخطيط الأخطاء
− أضعف في المستندات التي تحتوي على صور كثيرة

الأفكار الخاطئة الشائعة

أسطورة

يستبدل نظام RAG المرئي نظام RAG النصي بالكامل.

الواقع

يُكمّل نظام Visual RAG أساليب البحث النصي فقط، ولا يحلّ محلّها. بالنسبة للمجموعات النصية البحتة، كالمقالات أو الشفرات البرمجية، يظلّ البحث النصي فقط أسرع وبدقة مماثلة. تستفيد معظم أنظمة الإنتاج من إعداد هجين يوجّه الاستعلامات إلى أداة الاسترجاع المناسبة.

أسطورة

لا يمكن لتقنية RAG النصية التعامل مع المستندات التي تحتوي على صور على الإطلاق.

الواقع

لا يزال بإمكان نظام RAG النصي معالجة المستندات التي تحتوي على صور من خلال تشغيل تقنية التعرف الضوئي على الحروف (OCR) أولاً وفهرسة النص المستخرج. تعتمد الجودة بشكل كبير على مسار OCR، وغالبًا ما تفقد التنسيقات المعقدة معناها، ولكنه أسلوب عملي للعديد من حالات الاستخدام.

أسطورة

يُعطي نظام RAG المرئي دائمًا إجابات أفضل من نظام RAG النصي فقط.

الواقع

لا يتفوق البحث المرئي التفاعلي (Visual RAG) على البحث النصي التفاعلي (Text-only RAG) إلا عندما تكون المعلومات المرئية المسترجعة ذات صلة فعلية بالاستعلام. أما بالنسبة للأسئلة المتعلقة بالنثر أو الشفرة أو النصوص المنظمة، فإن إضافة الصور قد تُدخل تشويشًا وتزيد التكاليف دون تحسين الدقة.

أسطورة

أنت بحاجة إلى GPT-4V أو Gemini للقيام بـ RAG المرئي.

الواقع

تستطيع نماذج مفتوحة المصدر مثل LLaVA وQwen-VL وInternVL وMiniCPM-V التعامل بكفاءة مع مهام RAG المرئية. وتعمل مشفرات الرؤية الأصغر حجمًا، بالإضافة إلى أدوات الاسترجاع مثل ColPali، على وحدات معالجة الرسومات الاستهلاكية، مما يجعل RAG المرئية متاحًا دون الحاجة إلى واجهات برمجة تطبيقات احتكارية.

أسطورة

نظام Visual RAG مكلف للغاية للاستخدام في الإنتاج.

الواقع

على الرغم من أن تكلفة نظام RAG المرئي أعلى من تكلفة النظام النصي فقط، إلا أن تقنيات مثل ضغط الصور، والتخزين المؤقت للتضمين، والاسترجاع الانتقائي تُبقي التكاليف ضمن حدود معقولة. بالنسبة للقطاعات التي تعتمد بشكل كبير على المستندات، مثل القانون والرعاية الصحية والمالية، فإن تحسينات الدقة غالباً ما تبرر التكلفة.

الأسئلة المتداولة

ما هو الفرق الرئيسي بين الرسم البياني المرئي والرسم البياني النصي فقط؟

يسترجع Visual RAG الصور وصفحات المستندات والمحتوى المرئي لتأسيس استجابات نموذج اللغة، بينما يسترجع Text-only RAG المقاطع المكتوبة فقط. يستخدم Visual RAG تضمينات متعددة الوسائط لفهم التخطيط والرسوم البيانية والأشكال، في حين يعتمد Text-only RAG على تضمينات النصوص ويتطلب غالبًا تقنية التعرف الضوئي على الحروف (OCR) للمستندات الممسوحة ضوئيًا.

هل نظام RAG المرئي أكثر دقة من نظام RAG النصي فقط؟

يميل نظام Visual RAG إلى أن يكون أكثر دقة في المهام التي تتضمن الرسوم البيانية والمخططات والمستندات الممسوحة ضوئيًا والإجابة على الأسئلة المرئية. تُظهر معايير الأداء مثل DocVQA وChartQA تحسينات ملحوظة عند إضافة الاسترجاع المرئي. أما بالنسبة للاستعلامات النصية البحتة، فإن كلا النظامين يؤديان أداءً متقاربًا.

هل يمكنني استخدام نظام RAG المرئي مع النماذج مفتوحة المصدر؟

نعم، تدعم النماذج مفتوحة المصدر مثل LLaVA وQwen-VL وInternVL وMiniCPM-V سير عمل RAG المرئي. وبالاقتران مع أدوات الاسترجاع مثل ColPali أو ColQwen، يمكنك إنشاء مسارات RAG مرئية مفتوحة المصدر بالكامل تعمل على وحدات معالجة الرسومات المحلية دون الاعتماد على واجهات برمجة التطبيقات الاحتكارية.

هل يُغني نظام RAG المرئي عن الحاجة إلى تقنية التعرف الضوئي على الأحرف (OCR)؟

غالبًا ما تتجنب تقنية التعرف البصري على الأحرف (OCR) استخدام تقنية التعرف الضوئي على الأحرف (OCR) من خلال استرجاع صفحات المستند كصور مباشرةً، والسماح لنموذج اللغة المرئي بتفسيرها. وهذا يمنع أخطاء التعرف الضوئي على الأحرف في التنسيقات المعقدة، أو الكتابة اليدوية، أو عمليات المسح الضوئي منخفضة الجودة. مع ذلك، لا تزال بعض الأنظمة الهجينة تستخدم تقنية التعرف الضوئي على الأحرف لفهرسة البيانات الوصفية، بينما تعتمد على الاسترجاع المرئي للمحتوى الفعلي.

كم تبلغ تكلفة نظام RAG المرئي مقارنةً بنظام RAG النصي فقط؟

عادةً ما تكون تكلفة تقنية RAG المرئية أعلى من تكلفة تقنية RAG النصية من 3 إلى 10 أضعاف، وذلك بسبب تخزين الصور، وحسابات مُشفِّر الرؤية، وزيادة استخدام الرموز عند تغذية نماذج اللغة بالصور. وتختلف التكاليف بناءً على حجم المستند، وتكرار الاسترجاع، وما إذا كنت تستخدم واجهات برمجة تطبيقات مستضافة أو نماذج مستضافة ذاتيًا.

ما هو ColPali وكيف يرتبط بنظام RAG المرئي؟

ColPali هو نموذج لاسترجاع المستندات تم تقديمه عام 2024، ويتعامل مع صفحات المستندات كصور، ويستخدم مُشفِّرات الرؤية مثل PaliGemma لإنشاء تضمينات. وقد كان رائدًا في نهج استرجاع المستندات المرئي الذي يدعم العديد من أنظمة RAG المرئية الحديثة، وخاصةً لقواعد المعرفة التي تعتمد بشكل كبير على ملفات PDF.

متى يجب عليّ اختيار RAG النصي فقط بدلاً من RAG المرئي؟

اختر نظام RAG النصي فقط عندما تتكون قاعدة معارفك من نصوص بسيطة مثل المقالات، أو التعليمات البرمجية، أو الأسئلة الشائعة، أو سجلات المحادثات. كما أنه الخيار الأمثل عندما تكون الميزانية محدودة، أو يكون زمن الاستجابة مهمًا، أو عند النشر على أجهزة صغيرة تفتقر إلى إمكانيات الرؤية الحاسوبية. يُعد نظام RAG النصي فقط الخيار الافتراضي الأكثر أمانًا لمعظم تطبيقات روبوتات المحادثة التقليدية وتطبيقات البحث.

هل يمكن الجمع بين نظام RAG المرئي ونظام RAG النصي فقط؟

نعم، تجمع أنظمة RAG الهجينة بين كلا النهجين من خلال تشغيل أدوات استرجاع متوازية ودمج النتائج، أو من خلال توجيه الاستعلامات إلى أداة الاسترجاع المناسبة بناءً على نوع السؤال. وهذا يوفر لك مزايا التكلفة المنخفضة للاسترجاع النصي فقط للاستعلامات البسيطة، ومزايا الدقة للاسترجاع المرئي للاستعلامات التي تتضمن كميات كبيرة من المستندات.

ما هي أفضل المعايير لتقييم نظام RAG المرئي؟

تشمل المعايير الشائعة DocVQA لفهم المستندات، وChartQA للأسئلة القائمة على الرسوم البيانية، وMMMU للاستدلال متعدد الوسائط، وInfoVQA لفهم الرسوم البيانية. أما بالنسبة لاختبارات RAG النصية فقط، فتشمل المعايير الشائعة Natural Questions وTriviaQA وHotpotQA.

هل أحتاج إلى نموذج لغة متعددة الوسائط لاستخدام نظام RAG المرئي؟

نعم، يتطلب نظام RAG المرئي نموذج لغة قادرًا على معالجة الصور، مثل GPT-4V أو Claude 3.5 Sonnet أو Gemini 1.5 Pro، أو بدائل مفتوحة المصدر مثل LLaVA وQwen-VL. أما نماذج النصوص البحتة مثل GPT-4 الأساسي أو Llama 3 فلا تستطيع تفسير الصور المسترجعة، لذا فهي تعمل فقط مع نظام RAG النصي.

الحكم

اختر نظام RAG المرئي عندما تكون بياناتك غنية بالصور أو عندما تحمل التصاميم والرسوم البيانية والمخططات أهمية بالغة، فهو الخيار الأمثل لذكاء المستندات الاصطناعي والإجابة على الأسئلة المرئية. استخدم نظام RAG النصي فقط لقواعد المعرفة التقليدية، وسرعة النشر، وانخفاض التكاليف، خاصةً عندما يكون محتواك نصيًا بالفعل. تجد العديد من الفرق أن النهج الهجين هو الأنسب، حيث يُترك لنوع الاستعلام تحديد مسار الاسترجاع.

المقارنات ذات الصلة

RAG (التوليد المعزز بالاسترجاع) مقابل نماذج LLM المُحسَّنة

يُحسّن كلٌّ من RAG ونماذج LLM المُحسّنة جودة مخرجات الذكاء الاصطناعي، لكنهما يعملان بطرق مختلفة تمامًا. يستخلص RAG المعلومات الخارجية عند الاستعلام، بينما يُدمج التحسين المعرفة الجديدة مباشرةً في أوزان النموذج. ويعتمد الاختيار بينهما على مدى تكرار تغيّر البيانات ومستوى الدقة المطلوب.

آليات الانتباه الذاتي مقابل نماذج فضاء الحالة

تُعد آليات الانتباه الذاتي ونماذج فضاء الحالة من المناهج الأساسية لنمذجة التسلسلات في الذكاء الاصطناعي الحديث. يتفوق الانتباه الذاتي في التقاط العلاقات الغنية بين الرموز، ولكنه يصبح مكلفًا مع التسلسلات الطويلة، بينما تعالج نماذج فضاء الحالة التسلسلات بكفاءة أكبر مع التوسع الخطي، مما يجعلها جذابة للتطبيقات ذات السياق الطويل والتطبيقات الآنية.

آليات الانتباه في الرؤية مقابل الانتباه في معالجة اللغة الطبيعية

تُعدّ آليات الانتباه أساسية في الذكاء الاصطناعي الحديث، سواءً في مجال رؤية الحاسوب أو معالجة اللغة الطبيعية، إلا أنها تخدم أغراضًا مختلفة وتطورت عبر مسارات متباينة. يساعد الانتباه في مجال الرؤية النماذج على التركيز على مناطق الصورة ذات الصلة، بينما يُمكّن الانتباه في معالجة اللغة الطبيعية من فهم العلاقات بين الكلمات في النصوص.

أساليب الممثل-الناقد مقابل أساليب تدرج السياسة البحتة

تجمع أساليب الممثل-الناقد بين تدرجات السياسة ودالة القيمة المُتعلمة لتقليل التباين وتسريع عملية التعلم، بينما تعتمد أساليب تدرج السياسة البحتة كليًا على السياسة وعوائد مونت كارلو. ويعتمد الاختيار بينهما على ما إذا كنت بحاجة إلى الاستقرار وكفاءة العينة أم إلى البساطة والتقديرات غير المتحيزة.

أساليب تعلم الرسم البياني الزمني مقابل أساليب نمذجة التسلسل

تُفصّل هذه المقارنة الاختلافات الهيكلية الأساسية، وحالات الاستخدام العملية، والمفاضلات في الأداء بين تعلّم الرسم البياني الزمني ونمذجة التسلسل التقليدية. فبينما تُجسّد نمذجة التسلسل التطورات الخطية كالنصوص أو بيانات السلاسل الزمنية، يُعالج تعلّم الرسم البياني الزمني تفاعلات الشبكة والعلاقات المتغيرة مع الزمن في آنٍ واحد، مما يُوفر لك مخططًا شاملاً لاختيار البنية المناسبة.