تمثل نماذج الرؤية التحويلية ونماذج الرؤية في فضاء الحالة نهجين مختلفين جذريًا للفهم البصري. فبينما تعتمد نماذج الرؤية التحويلية على الانتباه الشامل لربط جميع أجزاء الصورة، تعالج نماذج الرؤية في فضاء الحالة المعلومات بشكل تسلسلي باستخدام ذاكرة منظمة، مما يوفر بديلاً أكثر كفاءة للاستدلال المكاني بعيد المدى والمدخلات عالية الدقة.
المميزات البارزة
تستخدم محولات الرؤية الانتباه الذاتي الكامل، بينما تعتمد نماذج فضاء الحالة على التكرار المنظم.
تتوسع نماذج رؤية الفضاء الحالة بشكل خطي، مما يجعلها أكثر كفاءة للمدخلات الكبيرة.
غالباً ما تتفوق نماذج الذكاء الاصطناعي في سيناريوهات التدريب المعيارية واسعة النطاق.
أصبحت نماذج SSM جذابة بشكل متزايد لمهام الصور والفيديو عالية الدقة
ما هو محولات الرؤية (ViT)؟
نماذج الرؤية التي تقسم الصور إلى أجزاء وتطبق الانتباه الذاتي لتعلم العلاقات العالمية عبر جميع المناطق.
تم تقديمه كنسخة معدلة من بنية Transformer للصور
يقسم الصور إلى رقع ذات حجم ثابت تُعامل كرموز.
يستخدم الانتباه الذاتي لنمذجة العلاقات بين جميع الرقع في آن واحد
يتطلب عادةً بيانات تدريب مسبقة واسعة النطاق لتحقيق أداء جيد
تزداد التكلفة الحسابية بشكل تربيعي مع عدد الرقع.
ما هو نماذج رؤية فضاء الحالة (SSMs)؟
بنى الرؤية التي تستخدم انتقالات الحالة المنظمة لمعالجة البيانات المرئية بكفاءة بطريقة تسلسلية أو قائمة على المسح.
مستوحى من أنظمة فضاء الحالة الكلاسيكية في معالجة الإشارات
تعالج الرموز المرئية من خلال التكرار المنظم بدلاً من الانتباه الكامل
أكثر كفاءة مع المدخلات عالية الدقة أو ذات التسلسلات الطويلة
تتناسب التكلفة الحسابية تقريبًا بشكل خطي مع حجم المدخلات
جدول المقارنة
الميزة
محولات الرؤية (ViT)
نماذج رؤية فضاء الحالة (SSMs)
الآلية الأساسية
الاهتمام الذاتي في جميع المناطق
انتقالات الحالة المنظمة مع التكرار
التعقيد الحسابي
دالة تربيعية ذات حجم إدخال
خطي مع حجم الإدخال
استخدام الذاكرة
مرتفع بسبب مصفوفات الانتباه
انخفاض بسبب تمثيل الحالة المضغوطة
معالجة التبعيات بعيدة المدى
قوي لكن باهظ الثمن
فعال وقابل للتوسع
متطلبات بيانات التدريب
عادةً ما تكون هناك حاجة إلى مجموعات بيانات كبيرة
قد يكون أداؤه أفضل في بعض الحالات في الأنظمة ذات البيانات المنخفضة
التوازي
قابل للتوازي بدرجة عالية أثناء التدريب
توجد تطبيقات أكثر تسلسلاً ولكنها مُحسَّنة
معالجة الصور عالية الدقة
يصبح مكلفاً بسرعة
أكثر كفاءة وقابلية للتوسع
قابلية التفسير
توفر خرائط الانتباه بعض إمكانية التفسير
يصعب تفسير الحالات الداخلية
مقارنة مفصلة
أسلوب الحوسبة الأساسية
تعالج محولات الرؤية الصور بتقسيمها إلى أجزاء، مما يسمح لكل جزء بالتفاعل مع الأجزاء الأخرى. وهذا يُنشئ نموذج تفاعل شامل من الطبقة الأولى. أما نماذج رؤية فضاء الحالة، فتُمرر المعلومات عبر حالة مخفية مُهيكلة تتطور تدريجيًا، مُلتقطةً التبعيات دون الحاجة إلى مقارنات ثنائية صريحة.
قابلية التوسع والكفاءة
تميل نماذج ViTs إلى أن تصبح مكلفة مع زيادة دقة الصورة لأن الانتباه لا يتناسب بشكل جيد مع زيادة عدد الرموز. في المقابل، صُممت نماذج فضاء الحالة لتتناسب بشكل أفضل، مما يجعلها جذابة للصور فائقة الدقة أو مقاطع الفيديو الطويلة حيث الكفاءة مهمة.
سلوك التعلم واحتياجات البيانات
تتطلب نماذج الرؤية التحويلية عمومًا مجموعات بيانات ضخمة لتحقيق أقصى أداء لها، نظرًا لافتقارها إلى تحيزات استقرائية قوية مدمجة. أما نماذج الرؤية في فضاء الحالة، فتُدخل افتراضات هيكلية أقوى حول ديناميكيات التسلسل، مما يُساعدها على التعلم بكفاءة أكبر في بعض الحالات، لا سيما عندما تكون البيانات محدودة.
الأداء في الفهم المكاني
تتفوق نماذج ViTs في استيعاب العلاقات العالمية المعقدة لأن كل جزء منها يتفاعل مباشرة مع جميع الأجزاء الأخرى. وتعتمد نماذج فضاء الحالة على الذاكرة المضغوطة، مما قد يحد أحيانًا من الاستدلال العالمي الدقيق، لكنها غالبًا ما تؤدي أداءً جيدًا بشكل مدهش بفضل الانتشار الفعال للمعلومات على نطاق واسع.
الاستخدام في الأنظمة الواقعية
تهيمن محولات الرؤية على العديد من المعايير وأنظمة الإنتاج الحالية نظرًا لنضجها وتوفر أدواتها. ومع ذلك، تكتسب نماذج رؤية فضاء الحالة اهتمامًا متزايدًا في الأجهزة الطرفية ومعالجة الفيديو والتطبيقات عالية الدقة حيث تُعد الكفاءة والسرعة من القيود الحاسمة.
الإيجابيات والسلبيات
محولات الرؤية
المزايا
+إمكانية دقة عالية
+اهتمام عالمي قوي
+نظام بيئي ناضج
+ممتاز للاختبارات المعيارية
تم
−تكلفة حسابية عالية
−يستهلك الذاكرة بشكل كبير
−يحتاج إلى بيانات ضخمة
−ضعف قابلية التوسع
نماذج رؤية فضاء الحالة
المزايا
+التوسع الفعال
+استخدام أقل للذاكرة
+مناسب للمشاهد الطويلة
+متوافق مع الأجهزة
تم
−أقل نضجاً
−تحسين أكثر صعوبة
−ضعف قابلية التفسير
−أدوات مرحلة البحث
الأفكار الخاطئة الشائعة
أسطورة
لا تستطيع نماذج رؤية فضاء الحالة التقاط التبعيات بعيدة المدى بشكل جيد.
الواقع
صُممت هذه النماذج خصيصًا لمحاكاة التبعيات بعيدة المدى من خلال تطور الحالة المنظم. ورغم أنها لا تستخدم آلية الانتباه الثنائي الصريحة، إلا أن حالتها الداخلية قادرة على نقل المعلومات عبر تسلسلات طويلة جدًا بكفاءة.
أسطورة
تُعتبر محولات الرؤية دائماً أفضل من البنى الأحدث.
الواقع
تُظهر نماذج ViTs أداءً ممتازًا في العديد من الاختبارات المعيارية، لكنها ليست دائمًا الخيار الأمثل. ففي البيئات عالية الدقة أو ذات الموارد المحدودة، قد تتفوق عليها نماذج بديلة مثل نماذج SSMs من الناحية العملية.
أسطورة
نماذج فضاء الحالة هي مجرد محولات مبسطة.
الواقع
إنها مختلفة بشكل جوهري. فبدلاً من مزج الرموز القائم على الانتباه، فإنها تعتمد على أنظمة ديناميكية مستمرة أو منفصلة لتطوير التمثيلات بمرور الوقت.
أسطورة
يفهم المتحولون الصور كما يفهمها البشر.
الواقع
تتعلم كل من نماذج الذكاء اللفظي ونماذج الذكاء الاجتماعي أنماطًا إحصائية بدلًا من الإدراك الشبيه بالإدراك البشري. ويستند "فهمها" إلى ارتباطات مكتسبة، وليس إلى وعي دلالي حقيقي.
الأسئلة المتداولة
لماذا تحظى محولات الرؤية بشعبية كبيرة في مجال رؤية الكمبيوتر؟
لقد حققوا أداءً متميزاً من خلال تطبيق آلية الانتباه الذاتي مباشرةً على أجزاء الصور، مما يتيح استدلالاً شاملاً قوياً. وبفضل التدريب واسع النطاق، تفوقوا بسرعة على العديد من النماذج التقليدية القائمة على الالتفاف من حيث الدقة.
ما الذي يجعل نماذج رؤية فضاء الحالة أكثر كفاءة؟
يتجنبون حساب جميع العلاقات الثنائية بين رموز الصورة. وبدلاً من ذلك، يحافظون على حالة داخلية مضغوطة، مما يقلل بشكل كبير من متطلبات الذاكرة والحساب مع ازدياد حجم المدخلات.
هل تحل نماذج فضاء الحالة محل محولات الرؤية؟
ليس حاليًا. فهي أقرب إلى كونها بديلًا منها إلى كونها بديلًا. لا تزال تقنية ViTs مهيمنة في مجال البحث والصناعة، بينما يجري استكشاف تقنية SSMs للتطبيقات التي تتطلب كفاءة عالية.
أي نموذج أفضل للصور عالية الدقة؟
تتميز نماذج الرؤية في فضاء الحالة غالبًا بميزة أن حساباتها تتناسب بكفاءة أكبر مع زيادة دقة الصورة. أما محولات الرؤية، فقد تصبح مكلفة مع ازدياد حجم الصورة.
هل تتطلب تقنية Vision Transformers المزيد من البيانات للتدريب؟
نعم، عادةً ما يكون أداؤها أفضل عند تدريبها على مجموعات بيانات كبيرة. بدون بيانات كافية، قد تواجه صعوبة مقارنةً بالنماذج ذات التحيزات الهيكلية المدمجة الأقوى.
هل يمكن لنماذج فضاء الحالة أن تضاهي دقة نماذج المحولات؟
في بعض المهام، قد تقترب هذه النماذج من الأداء أو حتى تضاهيه، لا سيما في بيئات العمل المنظمة أو ذات التسلسلات الطويلة. ومع ذلك، لا تزال نماذج Transformers تميل إلى الهيمنة في العديد من معايير الرؤية واسعة النطاق.
أي بنية أفضل لمعالجة الفيديو؟
تُعدّ نماذج فضاء الحالة أكثر كفاءةً في معالجة الفيديو نظرًا لطبيعتها التسلسلية وانخفاض تكلفة الذاكرة. ومع ذلك، لا يزال بإمكان مُحوّلات الرؤية تحقيق نتائج قوية مع توفر موارد حاسوبية كافية.
هل سيتم استخدام هذه النماذج معًا في المستقبل؟
من المرجح جداً. يجري بالفعل استكشاف مناهج هجينة تجمع بين آليات الانتباه وديناميكيات فضاء الحالة لتحقيق التوازن بين الدقة والكفاءة.
الحكم
لا تزال نماذج تحويل الرؤية الخيار الأمثل لمهام الرؤية عالية الدقة نظرًا لقدرتها الفائقة على الاستدلال الشامل ونظامها البيئي المتكامل. مع ذلك، تُقدّم نماذج رؤية فضاء الحالة بديلاً جذابًا عندما تكون الكفاءة وقابلية التوسع ومعالجة التسلسلات الطويلة أكثر أهمية من قوة الانتباه المباشر.