الذكاء الاصطناعيالتعلم العميقرؤية الحاسوبمحولاتسي إن إنالشبكات العصبية

نماذج الرؤية القائمة على المحولات مقابل الشبكات العصبية الالتفافية

تمثل نماذج الرؤية القائمة على المحولات والشبكات العصبية الالتفافية نهجين مختلفين جذريًا لتعليم الآلات الرؤية. تعتمد المحولات على آلية الانتباه الذاتي لالتقاط العلاقات العامة في الصورة، بينما تستخدم الشبكات العصبية الالتفافية مرشحات هرمية لاكتشاف الأنماط المحلية. ولكل بنية نقاط قوة مميزة في مهام رؤية الحاسوب.

المميزات البارزة

تلتقط المحولات علاقات الصورة العالمية من الطبقة الأولى، بينما تبني الشبكات العصبية التلافيفية الفهم بشكل هرمي
تتدرب الشبكات العصبية التلافيفية بكفاءة على مجموعات بيانات أصغر بفضل التحيزات الاستقرائية المدمجة.
يتناسب انتباه المحولات بشكل تربيعي مع الدقة، مما يجعل الشبكات العصبية التلافيفية أكثر كفاءة للصور عالية الدقة
غالباً ما توفر البنى الهجينة التي تجمع بين كلا النهجين أفضل أداء في العالم الحقيقي

ما هو نماذج الرؤية القائمة على المحولات؟

نماذج التعلم العميق التي تطبق آليات الانتباه الذاتي لمعالجة الصور كسلاسل من الرقع، والتقاط التبعيات بعيدة المدى عبر المجال البصري بأكمله.

كان نموذج Vision Transformer (ViT)، الذي قدمه باحثو جوجل في أواخر عام 2020، أول نموذج يوضح أن المحولات النقية يمكن أن تضاهي أو تتجاوز أداء الشبكات العصبية التلافيفية في تصنيف الصور.
تقوم تقنية ViT بتقسيم الصور إلى رقع ذات حجم ثابت، عادةً 16 × 16 بكسل، وتقوم بإسقاطها خطيًا قبل إدخالها إلى مشفر المحول القياسي.
تتطلب نماذج الرؤية القائمة على المحولات بشكل عام مجموعات بيانات ضخمة، غالباً مئات الملايين من الصور، لتتفوق على الأساليب الالتفافية أثناء التدريب المسبق.
تتيح خاصية الانتباه الذاتي لكل رقعة التفاعل المباشر مع كل رقعة أخرى، مما يمنح المحولات مجال استقبال عالمي من الطبقة الأولى.
أدخلت متغيرات مثل Swin Transformer المعالجة الهرمية مع النوافذ المزاحة، مما جعل المحولات أكثر كفاءة لمهام التنبؤ الكثيفة مثل الكشف والتجزئة.

ما هو الشبكات العصبية الالتفافية؟

بنى التعلم العميق التي تعالج الصور من خلال طبقات من المرشحات الالتفافية، وتستخرج الميزات تدريجياً من الحواف البسيطة إلى الكائنات المعقدة.

قام يان ليكان بتطوير LeNet في عام 1998، وهي أول شبكة عصبية تلافيفية عملية، للتعرف على الأرقام المكتوبة بخط اليد لتطبيقات الخدمات المصرفية.
تقوم الشبكات العصبية التلافيفية بتطبيق نفس المرشح المتعلم على الصورة بأكملها، مستغلة تباين الترجمة وتقليل عدد المعلمات المطلوبة بشكل كبير.
أتاحت بنى مثل ResNet، التي تم تقديمها في عام 2015، للشبكات أن تنمو لتتجاوز 100 طبقة باستخدام وصلات التخطي لمكافحة تلاشي التدرجات.
تستفيد الشبكات الالتفافية من التحيزات الاستقرائية القوية، بما في ذلك الثبات الموضعي والثبات الانتقالي، مما يجعلها فعالة للغاية في استخدام البيانات للعديد من مهام الرؤية.
تمت إعادة تصميم الشبكات العصبية التلافيفية الحديثة مثل ConvNeXt لتتوافق مع أداء المحولات مع الحفاظ على مزايا كفاءة العمليات التلافيفية.

جدول المقارنة

الميزة	نماذج الرؤية القائمة على المحولات	الشبكات العصبية الالتفافية
الآلية الأساسية	التركيز الذاتي على أجزاء الصورة	مرشحات التفافية عبر الأبعاد المكانية
المجال الاستقبالي	عالمي من الطبقة الأولى	محلي وهرمي، يتوسع مع العمق
التحيز الاستقرائي	الحد الأدنى من الافتراضات المضمنة حول الصور	التماثل القوي بين الموضع والترجمة
متطلبات البيانات	يحتاج عادةً إلى مجموعات بيانات تدريب مسبق واسعة النطاق	يؤدي أداءً جيداً حتى مع مجموعات البيانات الأصغر حجماً
التكلفة الحسابية	التوسيع التربيعي مع دقة الصورة	التوسيع الخطي مع دقة الصورة
قابلية التفسير	تكشف خرائط الانتباه عن العلاقات العالمية	تُظهر خرائط الميزات اكتشاف الأنماط الهرمية
أفضل حالات الاستخدام	التدريب المسبق واسع النطاق، والمهام متعددة الوسائط، والكشف	النشر عبر الأجهزة المحمولة، والتصوير الطبي، والاستدلال في الوقت الحقيقي
البنى الرئيسية	ViT، محول Swin، DeiT، BEiT	ResNet، EfficientNet، ConvNeXt، MobileNet
استقرار التدريب	قد يكون حساسًا بدون تهيئة دقيقة	مستقرة بشكل عام مع وصفات التدريب القياسية
عام الإنجازات	2020 (ورقة بحثية حول التحول البصري)	2012 (AlexNet) و 2015 (ResNet)

مقارنة مفصلة

كيفية معالجة الصور

يكمن الاختلاف الجوهري في كيفية "رؤية" كل بنية للصورة. تقوم بنى Transformer بتقسيم الصورة إلى شبكة من الرقع، ثم تستخدم آلية الانتباه الذاتي لتمكين كل رقعة من التواصل مع جميع الرقع الأخرى في آنٍ واحد. أما بنى CNN، فتتبع نهجًا معاكسًا، حيث تُمرر مرشحات صغيرة عبر الصورة لاكتشاف الحواف والنسيج والأشكال بطريقة تصاعدية. هذا يعني أن بنى Transformer تستوعب الصورة كاملةً دفعةً واحدة، بينما تبني بنى CNN الفهم طبقةً تلو الأخرى.

كفاءة البيانات والتدريب

تتمتع الشبكات العصبية التلافيفية (CNNs) بميزة واضحة عند محدودية بيانات التدريب. فافتراضاتها الضمنية حول كيفية عمل الصور، مثل فكرة أن البكسلات القريبة أكثر ترابطًا من البكسلات البعيدة، تُسهّل عملية التعلم. أما نماذج المحولات (Transformers)، التي تفتقر إلى هذه الافتراضات الضمنية، فتحتاج عادةً إلى ملايين أو حتى مئات الملايين من الصور المصنفة قبل أن تتفوق على الشبكات العصبية التلافيفية المُدرّبة جيدًا. مع ذلك، بمجرد تدريبها مسبقًا على مجموعات بيانات ضخمة، غالبًا ما تُحسّن نماذج المحولات أداءها في المهام اللاحقة.

المتطلبات الحسابية

يتناسب الانتباه الذاتي طرديًا مع مربع عدد الرقع، مما يعني أن مضاعفة دقة الصورة تزيد من متطلبات الحوسبة أربعة أضعاف. أما الشبكات العصبية الالتفافية (CNNs) فتتميز بقابلية توسع أكبر بكثير لأن عمليات الالتفاف لها تكلفة ثابتة بغض النظر عن حجم الصورة. وهذا ما يجعل الشبكات العصبية الالتفافية الخيار الأمثل للبيئات ذات الموارد المحدودة مثل تطبيقات الجوال والأجهزة الطرفية، بينما تتألق الشبكات المحولة في البيئات التي تتوفر فيها مجموعات وحدات معالجة الرسومات (GPU) بسهولة.

الأداء وفقًا للمعايير الحديثة

في معايير مثل ImageNet، يحقق كلا البنيتين الآن دقة فائقة. وقد أظهرت النماذج الهجينة التي تجمع بين جذوع الشبكات الالتفافية ووحدات المحولات، مثل CoAtNet، أن دمج المنهجين غالبًا ما يُحقق أفضل النتائج. أما بالنسبة لمهام التنبؤ الكثيفة مثل اكتشاف الكائنات وتقسيمها، فقد قلصت المحولات الهرمية مثل Swin الفجوة مع الشبكات الالتفافية إلى حد كبير، مع توفيرها في الوقت نفسه إمكانيات جديدة للتعامل مع المدخلات عالية الدقة.

قابلية التفسير وتصحيح الأخطاء

توفر كلتا البنيتين أدوات تصوير، لكنهما تكشفان عن جوانب مختلفة. تُظهر خرائط الانتباه في المحولات مناطق الصورة التي يعتبرها النموذج مهمة بالنسبة لبعضها البعض، مما يوفر رؤية أشمل. من ناحية أخرى، تُسهّل خرائط ميزات الشبكات العصبية التلافيفية (CNN) رؤية كيفية اكتشاف الشبكة للحواف والأشكال، وصولًا إلى الكائنات الكاملة. غالبًا ما يجد الممارسون أن تصحيح أخطاء الشبكات العصبية التلافيفية أسهل لأن طبيعتها الهرمية تُحاكي الطريقة التي قد نصف بها التعرف البصري بشكل بديهي.

تبني الصناعة والنظام البيئي

تتمتع الشبكات العصبية التلافيفية (CNNs) بميزة تنافسية كبيرة في مجال النشر الإنتاجي، بفضل أطر العمل المُحسّنة ودعم الأجهزة الذي يعود لأكثر من عقد من الزمان. وتلحق بها الشبكات التحويلية (Transformers) بسرعة، لا سيما في التطبيقات البحثية المكثفة والأنظمة متعددة الوسائط التي تجمع بين الرؤية واللغة. وتستخدم العديد من الشركات الآن مناهج هجينة، تستفيد من الشبكات العصبية التلافيفية لاستخراج الميزات والشبكات التحويلية للاستدلال عالي المستوى.

الإيجابيات والسلبيات

نماذج الرؤية القائمة على المحولات

المزايا

+ مجال الاستقبال العالمي
+ نقل التعلم الممتاز
+ قدرات متعددة الوسائط قوية
+ يتوسع بشكل جيد مع البيانات
+ هندسة معمارية مرنة

تم

− متطلبات بيانات عالية
− تكلفة الحساب التربيعية
− أقل قابلية للتفسير محلياً
− التدريب من الصفر أكثر صعوبة

الشبكات العصبية الالتفافية

المزايا

+ تدريب فعال من حيث البيانات
+ سرعة استدلال عالية
+ تحيزات استقرائية قوية
+ نظام بيئي ناضج
+ يعمل على الأجهزة الطرفية

تم

− سياق عالمي محدود
− يصعب التوسع ليشمل مجموعات البيانات الضخمة
− بنية أقل مرونة
− المعالجة الهرمية المتسلسلة

الأفكار الخاطئة الشائعة

أسطورة

حلت المحولات محل الشبكات العصبية التلافيفية بشكل كامل في مجال رؤية الكمبيوتر.

الواقع

هذا غير دقيق. فبينما حظيت تقنية المحولات باهتمام كبير، لا تزال الشبكات العصبية التلافيفية (CNNs) مستخدمة على نطاق واسع في أنظمة الإنتاج، وخاصةً في تطبيقات الأجهزة المحمولة والحوسبة الطرفية. في الواقع، تجمع العديد من النماذج الحديثة بين طبقات الالتفاف ووحدات المحولات لتحقيق أفضل النتائج.

أسطورة

تُعتبر الشبكات العصبية التلافيفية تقنية عفا عليها الزمن.

الواقع

بل على العكس تماماً. فقد صُممت نماذج الشبكات العصبية التلافيفية الحديثة، مثل ConvNeXt، خصيصاً لتُضاهي أداء الشبكات المحولة مع الحفاظ على كفاءة التلافيف. ولا تزال الشبكات العصبية التلافيفية تُهيمن على السيناريوهات التي تكون فيها موارد الحوسبة أو الذاكرة أو بيانات التدريب محدودة.

أسطورة

تتفوق المحولات دائمًا على الشبكات العصبية التلافيفية في جميع مهام الرؤية الحاسوبية.

الواقع

تتفوق نماذج المحولات عادةً في الاختبارات المعيارية واسعة النطاق التي تعتمد على بيانات تدريب وفيرة، لكن الشبكات العصبية التلافيفية غالبًا ما تضاهيها أو تتفوق عليها في مجموعات البيانات الأصغر حجمًا وفي مهام مثل التصوير الطبي حيث تكون البيانات شحيحة. ويعتمد اختيار أفضل بنية بشكل كبير على طبيعة المشكلة والقيود المفروضة عليها.

أسطورة

إن خاصية الانتباه الذاتي تجعل المحولات أفضل بطبيعتها في فهم الصور.

الواقع

تمنح آلية الانتباه الذاتي نماذج المحولات رؤية شاملة، لكنها لا تُترجم تلقائيًا إلى فهم أفضل. تقوم الشبكات العصبية الالتفافية بتشفير معلومات مسبقة مفيدة حول الصور الطبيعية، والتي يجب على نماذج المحولات تعلمها من البيانات، ولهذا السبب تحتاج هذه النماذج إلى كمية أكبر بكثير من بيانات التدريب للوصول إلى أداء مماثل.

أسطورة

لا يمكن استخدام محولات الرؤية في التطبيقات التي تعمل في الوقت الفعلي.

الواقع

على الرغم من أن نماذج ViT القياسية مكلفة حسابيًا، فقد صُممت نسخ فعالة منها، مثل Swin Transformer وEfficientFormer وMobileViT، خصيصًا للاستخدام في الوقت الفعلي وعلى الأجهزة المحمولة. وتتميز هذه العائلة المعمارية بتنوع أكبر مما يتصوره الكثيرون.

الأسئلة المتداولة

ما هو الفرق الرئيسي بين محولات الرؤية والشبكات العصبية التلافيفية؟

يكمن الاختلاف الجوهري في كيفية معالجة المعلومات المرئية. تستخدم محولات الرؤية آلية الانتباه الذاتي لتمكين كل جزء من الصورة من التفاعل المباشر مع الأجزاء الأخرى، ما يسمح بالتقاط العلاقات العامة منذ البداية. أما الشبكات العصبية الالتفافية فتستخدم مرشحات التفافية تنزلق عبر الصورة، فتكتشف الأنماط المحلية أولاً، ثم تبني فهمًا شاملاً من خلال طبقات أعمق.

أي بنية أفضل لمجموعات البيانات الصغيرة؟

تُحقق الشبكات العصبية التلافيفية (CNNs) أداءً أفضل عمومًا عندما تكون بيانات التدريب محدودة. تعمل تحيزاتها الاستقرائية المُدمجة، مثل افتراض وجود علاقة بين البكسلات المتجاورة، كمعلومات مسبقة مفيدة تُقلل من كمية البيانات اللازمة للتعلم. أما نماذج Transformers، فتحتاج عادةً إلى مئات الآلاف أو ملايين الصور لتُظهر أفضل ما لديها.

هل تتطلب محولات الرؤية قدرة حاسوبية أكبر من الشبكات العصبية التلافيفية؟

نعم، بشكل ملحوظ في معظم الحالات. تتزايد عمليات الانتباه الذاتي تربيعيًا مع عدد أجزاء الصورة، مما يعني أن الحساب يزداد بسرعة مع زيادة دقة الصورة. أما الشبكات العصبية الالتفافية فتتزايد خطيًا مع الدقة، مما يجعلها أكثر كفاءة بكثير للصور عالية الدقة والبيئات ذات الموارد المحدودة.

هل يمكن دمج الشبكات العصبية التلافيفية (CNNs) والمحولات (Transformers)؟

بالتأكيد، وتزداد شعبية النماذج الهجينة. تجمع بنى مثل CoAtNet وBoTNet وConvNeXt بين طبقات الالتفاف وآليات الانتباه. غالبًا ما تتفوق هذه النماذج الهجينة على النسخ النقية لأي من البنيتين من خلال الجمع بين كفاءة الالتفاف وقوة الاستدلال الشامل للانتباه.

ما هي البنية التي يجب أن أستخدمها لاكتشاف الأجسام؟

كلاهما فعال في اكتشاف الأجسام، لكن الاختيار يعتمد على متطلباتك. تُعدّ المحولات الهرمية مثل Swin Transformer من الركائز الأساسية الشائعة لأطر عمل الاكتشاف مثل Mask R-CNN وDETR. أما ركائز الشبكات العصبية التلافيفية مثل ResNet، فلا تزال تحظى بشعبية عندما تكون السرعة والكفاءة أهم من تحقيق أعلى دقة ممكنة.

هل تدريب محولات الرؤية أصعب من تدريب الشبكات العصبية التلافيفية؟

قد يكون الأمر كذلك. فبدون تحيزات استقرائية قوية، تكون المحولات أكثر حساسية لمعدل التعلم، والتهيئة، وخيارات زيادة البيانات. وغالبًا ما تكون تقنيات مثل تغيير حجم الطبقات، والتسخين التدريجي، وزيادة البيانات المكثفة ضرورية. أما الشبكات العصبية الالتفافية، فتميل إلى التدريب بشكل أكثر موثوقية باستخدام الطرق القياسية.

ما هي الورقة البحثية الرائدة في مجال محولات الرؤية؟

الورقة البحثية الرائدة هي "الصورة تساوي 16 × 16 كلمة"، التي نشرها دوسوفيتسكي وزملاؤه في جوجل ريسيرش في أواخر عام 2020. وقد أظهرت أن المحول النقي المطبق على رقع الصور يمكن أن يحقق نتائج متطورة على ImageNet عند تدريبه مسبقًا على مجموعات بيانات كبيرة مثل JFT-300M.

أي بنية معمارية أفضل للتصوير الطبي؟

تُفضّل الشبكات العصبية التلافيفية (CNNs) غالبًا في التصوير الطبي نظرًا لصغر حجم مجموعات البيانات وارتفاع تكلفة الأخطاء. كما أن كفاءتها في التعامل مع البيانات وقابليتها للتفسير تجعلها مناسبة تمامًا للبيئات السريرية. مع ذلك، تكتسب الشبكات المحولة (Transformers) زخمًا في الأبحاث، لا سيما في المهام التي تتضمن عمليات مسح ثلاثية الأبعاد حيث يُعد السياق العام مهمًا.

هل ستحل المحولات محل الشبكات العصبية التلافيفية بالكامل في نهاية المطاف؟

يرى معظم الخبراء أن الاستبدال الكامل غير مرجح. فلكل بنية نقاط قوة فريدة، ويتجه التوجه نحو التصاميم الهجينة التي تستفيد من كليهما. ومن المرجح أن تظل الشبكات العصبية التلافيفية (CNNs) مهيمنة في التطبيقات التي تتطلب كفاءة عالية، بينما ستواصل المحولات دفع حدود الابتكار في مجال البحث والأنظمة واسعة النطاق.

كيف أختار بين محول الرؤية وشبكة CNN لمشروعي؟

ابدأ بتحديد حجم مجموعة البيانات، وميزانية الحوسبة، وبيئة التشغيل. إذا كانت بياناتك محدودة أو كنت بحاجة إلى التشغيل على الأجهزة المحمولة، فمن المرجح أن يكون استخدام شبكة عصبية تلافيفية (CNN) هو الخيار الأمثل. أما إذا كنت تمتلك مجموعات بيانات ضخمة ووحدات معالجة رسومية (GPU) قوية، وتستفيد مهمتك من الاستدلال الشامل، فجرّب استخدام مُحوِّل الرؤية. يُعدّ اختبار الأداء لكلا النوعين على بياناتك الخاصة هو الأسلوب الأمثل دائمًا.

الحكم

اختر نماذج الرؤية القائمة على المحولات عندما يتوفر لديك مجموعات بيانات ضخمة، وموارد حاسوبية كبيرة، ومهام تستفيد من السياق الشامل، مثل الذكاء الاصطناعي متعدد الوسائط أو الكشف عالي الدقة. استخدم الشبكات العصبية الالتفافية عندما تكون البيانات محدودة، أو عندما يكون زمن الاستجابة مهمًا، أو عندما تحتاج إلى النشر على أجهزة طرفية. عمليًا، تجمع العديد من الأنظمة الناجحة بين كلا البنيتين للاستفادة من مزايا كل منهما.

المقارنات ذات الصلة

RAG (التوليد المعزز بالاسترجاع) مقابل نماذج LLM المُحسَّنة

يُحسّن كلٌّ من RAG ونماذج LLM المُحسّنة جودة مخرجات الذكاء الاصطناعي، لكنهما يعملان بطرق مختلفة تمامًا. يستخلص RAG المعلومات الخارجية عند الاستعلام، بينما يُدمج التحسين المعرفة الجديدة مباشرةً في أوزان النموذج. ويعتمد الاختيار بينهما على مدى تكرار تغيّر البيانات ومستوى الدقة المطلوب.

آليات الانتباه الذاتي مقابل نماذج فضاء الحالة

تُعد آليات الانتباه الذاتي ونماذج فضاء الحالة من المناهج الأساسية لنمذجة التسلسلات في الذكاء الاصطناعي الحديث. يتفوق الانتباه الذاتي في التقاط العلاقات الغنية بين الرموز، ولكنه يصبح مكلفًا مع التسلسلات الطويلة، بينما تعالج نماذج فضاء الحالة التسلسلات بكفاءة أكبر مع التوسع الخطي، مما يجعلها جذابة للتطبيقات ذات السياق الطويل والتطبيقات الآنية.

آليات الانتباه في الرؤية مقابل الانتباه في معالجة اللغة الطبيعية

تُعدّ آليات الانتباه أساسية في الذكاء الاصطناعي الحديث، سواءً في مجال رؤية الحاسوب أو معالجة اللغة الطبيعية، إلا أنها تخدم أغراضًا مختلفة وتطورت عبر مسارات متباينة. يساعد الانتباه في مجال الرؤية النماذج على التركيز على مناطق الصورة ذات الصلة، بينما يُمكّن الانتباه في معالجة اللغة الطبيعية من فهم العلاقات بين الكلمات في النصوص.

أساليب الممثل-الناقد مقابل أساليب تدرج السياسة البحتة

تجمع أساليب الممثل-الناقد بين تدرجات السياسة ودالة القيمة المُتعلمة لتقليل التباين وتسريع عملية التعلم، بينما تعتمد أساليب تدرج السياسة البحتة كليًا على السياسة وعوائد مونت كارلو. ويعتمد الاختيار بينهما على ما إذا كنت بحاجة إلى الاستقرار وكفاءة العينة أم إلى البساطة والتقديرات غير المتحيزة.

أساليب تعلم الرسم البياني الزمني مقابل أساليب نمذجة التسلسل

تُفصّل هذه المقارنة الاختلافات الهيكلية الأساسية، وحالات الاستخدام العملية، والمفاضلات في الأداء بين تعلّم الرسم البياني الزمني ونمذجة التسلسل التقليدية. فبينما تُجسّد نمذجة التسلسل التطورات الخطية كالنصوص أو بيانات السلاسل الزمنية، يُعالج تعلّم الرسم البياني الزمني تفاعلات الشبكة والعلاقات المتغيرة مع الزمن في آنٍ واحد، مما يُوفر لك مخططًا شاملاً لاختيار البنية المناسبة.