الذكاء الاصطناعيالتعلم العميقآليات الانتباهرؤية الحاسوبمعالجة اللغة الطبيعيةمحولات
آليات الانتباه في الرؤية مقابل الانتباه في معالجة اللغة الطبيعية
تُعدّ آليات الانتباه أساسية في الذكاء الاصطناعي الحديث، سواءً في مجال رؤية الحاسوب أو معالجة اللغة الطبيعية، إلا أنها تخدم أغراضًا مختلفة وتطورت عبر مسارات متباينة. يساعد الانتباه في مجال الرؤية النماذج على التركيز على مناطق الصورة ذات الصلة، بينما يُمكّن الانتباه في معالجة اللغة الطبيعية من فهم العلاقات بين الكلمات في النصوص.
المميزات البارزة
يركز الانتباه البصري على المناطق المكانية بينما يركز الانتباه في معالجة اللغة الطبيعية على العلاقات بين الرموز عبر التسلسلات.
إن مفهوم الانتباه في معالجة اللغة الطبيعية يسبق مفهوم الانتباه البصري، حيث ألهمت بنية المحولات تقنية محولات الرؤية بعد سنوات.
تستخدم نماذج الرؤية تضمينات موضعية ثنائية الأبعاد بينما تعتمد نماذج معالجة اللغة الطبيعية على معلومات موضعية أحادية البعد.
يربط الانتباه المتبادل الآن بين المجالين، مما يتيح أنظمة الذكاء الاصطناعي متعددة الوسائط القوية مثل CLIP و GPT-4V.
ما هو آليات الانتباه في الرؤية؟
تقنيات تسمح لنماذج الرؤية بالتركيز بشكل انتقائي على المناطق أو الميزات المكانية المهمة داخل الصور ومقاطع الفيديو.
تقوم تقنية Vision Transformers (ViT) بتقسيم الصور إلى أجزاء وتطبيق الانتباه الذاتي، مما يحقق نتائج متطورة على ImageNet.
يساعد الانتباه المكاني النماذج على تحديد أجزاء الصورة الأكثر أهمية لمهام مثل اكتشاف الكائنات وتقسيمها.
تعمل آلية الانتباه عبر القنوات، التي شاع استخدامها في شبكات الضغط والإثارة، على إعادة ضبط استجابات الميزات عبر قنوات التصفية.
غالباً ما تتفوق نماذج الرؤية القائمة على الانتباه على الشبكات العصبية التلافيفية عندما تتوفر بيانات تدريب كافية، عادةً ملايين الصور.
يعمل الانتباه المتبادل في نماذج الرؤية واللغة مثل CLIP على مواءمة رقع الصور مع رموز النص من أجل الفهم متعدد الوسائط.
ما هو الانتباه في معالجة اللغة الطبيعية؟
الأساليب التي تمكّن نماذج اللغة من تقدير أهمية الكلمات والرموز المختلفة عند معالجة بيانات النصوص المتسلسلة.
تعتمد بنية Transformer، التي تم تقديمها في عام 2017، بشكل كامل على الانتباه الذاتي وأحدثت ثورة في معالجة اللغة الطبيعية.
يسمح الانتباه الذاتي لكل رمز في التسلسل بالاهتمام بكل رمز آخر، مما يؤدي إلى التقاط التبعيات طويلة المدى.
يقوم نظام الانتباه متعدد الرؤوس بتشغيل العديد من عمليات الانتباه بالتوازي، مما يسمح للنماذج بالتركيز على أنواع العلاقات المختلفة في وقت واحد.
يضمن التمويه السببي في نماذج فك التشفير مثل GPT أن كل رمز يهتم فقط بالرموز السابقة أثناء إنشاء النص.
حلت آليات الانتباه محل الشبكات العصبية المتكررة (RNNs) وشبكات الذاكرة طويلة المدى (LSTMs) باعتبارها النهج السائد للترجمة والتلخيص ونمذجة اللغة.
جدول المقارنة
الميزة
آليات الانتباه في الرؤية
الانتباه في معالجة اللغة الطبيعية
نوع الإدخال الأساسي
صور، أو إطارات فيديو، أو رقع مرئية
رموز النص أو الكلمات أو وحدات الكلمات الفرعية
مستوى تفصيل الانتباه
المناطق المكانية أو الرقع أو قنوات الميزات
العلاقات بين الرموز عبر التسلسلات
أوريجين أركيتكتشر
محول الرؤية (ViT)، DETR، SE-Net
جهاز التشفير وفك التشفير الأصلي من نوع Transformer (Vaswani et al., 2017)
التعقيد الحسابي
تربيعي مع دقة الصورة؛ تقلل الطرق القائمة على الرقع من التكلفة
تربيعي مع طول التسلسل؛ توجد متغيرات الانتباه المتفرق
حالات الاستخدام النموذجية
تصنيف الصور، اكتشاف الكائنات، تجزئة الصور، فهم الفيديو
الترجمة، إنشاء النصوص، الإجابة على الأسئلة، التلخيص
استراتيجية التمويه
لا يوجد عادةً إخفاء سببي؛ الانتباه ثنائي الاتجاه شائع
مجموعات بيانات الصور واسعة النطاق مثل ImageNet أو JFT-300M
مجموعات النصوص الكبيرة مثل Common Crawl أو ويكيبيديا
مقارنة مفصلة
الغرض والوظيفة الأساسية
تساعد آلية الانتباه البصري النماذج على تحديد موضع النظر في الصورة، حيث تُبرز المناطق المكانية التي تحمل المعلومات الأكثر صلة بمهمة معينة. أما آلية الانتباه في معالجة اللغة الطبيعية، فتُحدد كيفية ارتباط الكلمات ببعضها داخل الجملة أو عبر المستند، مُلتقطةً التبعيات الدلالية بغض النظر عن المسافة. يشترك كلا النوعين في الفكرة الأساسية نفسها، وهي الأهمية المرجحة، لكن البنى التي يعملان عليها تختلف اختلافًا كبيرًا.
التطور المعماري
ظهر مفهوم الانتباه في معالجة اللغة الطبيعية (NLP) بشكله الحديث أولاً، حيث رسّخت ورقة بحثية نُشرت عام 2017 بعنوان "المُحوّل" (Transformer) مفهوم الانتباه الذاتي كركيزة أساسية لفهم اللغة. وقد استفاد الانتباه في مجال الرؤية بشكل كبير من هذه الإنجازات في معالجة اللغة الطبيعية، إذ أثبتت "مُحوّلات الرؤية" (Vision Transformers) في عام 2020 أن البنى القائمة على الانتباه الخالص يمكن أن تُضاهي أو تتفوق على الشبكات الالتفافية. ومنذ ذلك الحين، استمرّ التفاعل بين المجالين، حيث تربط تقنيات مثل الانتباه المتبادل بين الرؤية واللغة في النماذج متعددة الوسائط.
الاعتبارات الحسابية
يواجه كلا المجالين تحديات تعقيد تربيعي، لكن النطاق يختلف. تتعامل نماذج معالجة اللغة الطبيعية مع تسلسلات تتراوح من مئات إلى مئات الآلاف من الرموز، بينما يتعين على نماذج الرؤية التعامل مع صور قد تحتوي على آلاف الأجزاء بدقة عالية. وقد طور باحثو الرؤية متغيرات فعالة مثل آلية الانتباه المُجزأة في نموذج سوين ترانسفورمر، بينما أنتجت معالجة اللغة الطبيعية أساليب انتباه متفرقة وخطية للتعامل مع سياقات أطول.
الإخفاء والاتجاهية
يكمن أحد الفروق الرئيسية في كيفية تدفق الانتباه. تستخدم نماذج فك تشفير معالجة اللغة الطبيعية تقنية الإخفاء السببي، بحيث لا يرى كل رمز إلا الرموز السابقة له، وهو أمر ضروري لتوليد النصوص التراجعي الذاتي. أما نماذج الرؤية، فتستخدم عادةً الانتباه ثنائي الاتجاه، لأن فهم الصورة لا يتطلب ترتيبًا من اليسار إلى اليمين. مع ذلك، تستخدم بعض مهام الرؤية الانتباه المقنّع، لا سيما في المشفرات التلقائية المقنّعة حيث تُخفى أجزاء من المدخلات أثناء التدريب.
الترميز الموضعي
نظرًا لأن النصوص لها ترتيب تسلسلي طبيعي، تستخدم معالجة اللغة الطبيعية تمثيلات موضعية أحادية البعد لتحديد موقع كل رمز في التسلسل. أما الرؤية الحاسوبية فتتطلب تمثيلات موضعية ثنائية البعد للحفاظ على العلاقات المكانية بين أجزاء الصورة، لأن الصور لها أبعاد طول وعرض. يؤثر هذا الاختلاف على كيفية تصميم كل مجال لأنظمة التمثيل الخاصة به، وكيفية تعميم النماذج على أحجام إدخال مختلفة.
تطبيقات متعددة المجالات
لقد تلاشت الحدود بين الانتباه البصري وانتباه معالجة اللغة الطبيعية بشكل ملحوظ. تستخدم نماذج مثل CLIP وDALL-E وFlamingo الانتباه المتبادل لربط التمثيلات المرئية والنصية، مما يُمكّن من أداء مهام مثل التعليق على الصور، والإجابة على الأسئلة المرئية، وتحويل النصوص إلى صور. تُظهر هذه الأنظمة متعددة الوسائط أن آليات الانتباه تتمتع بمرونة فائقة، ويمكنها توحيد أنواع البيانات المختلفة ضمن بنية واحدة.
الإيجابيات والسلبيات
آليات الانتباه في الرؤية
المزايا
+يستوعب السياق العالمي
+يتمتع بخبرة واسعة في التعامل مع مجموعات البيانات الكبيرة
+خرائط الانتباه القابلة للتفسير
+هندسة معمارية مرنة
تم
−تكلفة حسابية عالية
−يحتاج إلى الكثير من البيانات
−التعقيد القائم على الرقع
−تحيز استقرائي أقل
الانتباه في معالجة اللغة الطبيعية
المزايا
+يتعامل مع التبعيات الطويلة
+التدريب المتوازي
+يدعم برامج الماجستير الحديثة في القانون
+التعلم الانتقالي الغني
تم
−التعقيد التربيعي
−حدود طول السياق
−مخاطر الهلوسة
−كثيفة الموارد
الأفكار الخاطئة الشائعة
أسطورة
آليات الانتباه في مجال الرؤية ومعالجة اللغة الطبيعية هي تقنيات مختلفة تمامًا.
الواقع
يشتركان في نفس الأساس الرياضي لحساب المجاميع المرجحة بناءً على تفاعلات الاستعلام-المفتاح-القيمة. وتكمن الاختلافات بشكل رئيسي في كيفية هيكلة المدخلات والمعلومات الموضعية المضافة، وليس في الآلية الأساسية نفسها.
أسطورة
تعمل محولات الرؤية بشكل جيد حتى مع مجموعات البيانات الصغيرة.
الواقع
على عكس الشبكات العصبية التلافيفية التي تتضمن تحيزات استقرائية مدمجة، تتطلب تقنيات التحقق من صحة الصور عادةً مجموعات بيانات ضخمة (غالباً مئات الملايين من الصور) لتتفوق على أساليب الشبكات التلافيفية. أما على مجموعات البيانات الأصغر، فغالباً ما تتفوق الشبكات العصبية التلافيفية ما لم يتم تطبيق تنظيم قوي أو تدريب مسبق.
أسطورة
الانتباه في معالجة اللغة الطبيعية يعني أن النموذج يفهم اللغة حقاً.
الواقع
الانتباه آلية حسابية لترجيح المدخلات، وليس ضمانًا للفهم. يمكن لنماذج اللغة الكبيرة إنتاج نصوص سلسة مع أنها قد ترتكب أخطاء في الاستدلال، أو تتخيل حقائق خاطئة، أو تفشل في المهام المنطقية البسيطة.
أسطورة
يحل الانتباه محل الشبكات الالتفافية والمتكررة بشكل كامل.
الواقع
لا تزال البنى الهجينة شائعة، وغالبًا ما تتفوق على نماذج الانتباه البحتة. ولا تزال الطبقات الالتفافية تظهر في العديد من أنظمة الرؤية الحديثة، كما تستفيد بعض نماذج معالجة اللغة الطبيعية من دمج الانتباه مع مناهج أخرى.
أسطورة
تُظهر خرائط الانتباه بشكل مباشر ما يفكر فيه النموذج.
الواقع
لا تُعدّ أوزان الانتباه دائمًا تفسيرات موثوقة لسلوك النموذج. فقد أظهرت الأبحاث أن توزيعات الانتباه لا ترتبط بالضرورة بأهمية الميزات، ويتطلب تفسيرها الحذر.
الأسئلة المتداولة
ما هو الفرق الرئيسي بين الانتباه في الرؤية ومعالجة اللغة الطبيعية؟
تعتمد آلية الانتباه البصري على هياكل مكانية ثنائية الأبعاد مثل رقع الصور، وتركز على تحديد المناطق المهمة، بينما تعتمد آلية الانتباه في معالجة اللغة الطبيعية على تسلسلات الرموز أحادية البعد لالتقاط العلاقات بين الكلمات. يستخدم كلا النوعين صيغًا رياضية متشابهة، لكنهما يختلفان في كيفية ترميز المعلومات الموضعية وكيفية تطبيق الإخفاء.
هل نشأت آليات الانتباه في معالجة اللغة الطبيعية أم في مجال رؤية الحاسوب؟
نشأت آليات الانتباه الحديثة في مجال معالجة اللغات الطبيعية، وكان بحث "المُحوِّل" الذي نشره فاسواني وآخرون عام 2017 بمثابة نقطة تحول بارزة. ثم ظهرت مُحوِّلات الرؤية (ViT) لاحقًا في عام 2020، حيث قامت بتكييف مبادئ الانتباه الذاتي نفسها من اللغة إلى الصور من خلال التعامل معها كسلاسل من الرقع.
هل تستطيع آليات الانتباه التعامل مع التسلسلات الطويلة أو الصور عالية الدقة؟
تتسم آلية الانتباه الذاتي القياسية بتعقيد تربيعي، مما يجعلها مكلفةً عند التعامل مع المدخلات الطويلة. وقد طوّر الباحثون نماذج فعّالة مثل Linformer وPerformer وLongformer لمعالجة اللغة الطبيعية، وSwin Transformer أو MaxViT للرؤية الحاسوبية، والتي تُقلل التكاليف الحسابية مع الحفاظ على الأداء.
لماذا تحتاج تقنية تحويل الرؤية إلى الكثير من بيانات التدريب؟
على عكس الشبكات العصبية التلافيفية (CNNs) التي تفترض مسبقًا وجود علاقات مكانية وثباتها عند الانتقال، يتعين على نماذج ViTs تعلم هذه العلاقات المكانية من الصفر عبر آلية الانتباه. وبدون بيانات كافية، تميل هذه النماذج إلى الإفراط في التخصيص، ولهذا السبب غالبًا ما يكون التدريب المسبق واسع النطاق على مجموعات بيانات مثل JFT-300M ضروريًا.
كيف يربط الانتباه المتبادل بين نماذج الرؤية واللغة؟
تتيح آلية الانتباه المتبادل لرموز أحد الوسائط الانتباه إلى رموز الوسائط الأخرى، مما يمكّن نماذج مثل CLIP من مواءمة أجزاء الصور مع الأوصاف النصية. وتُعد هذه الآلية أساسية للأنظمة متعددة الوسائط التي تُؤدي وظائف التعليق على الصور، والإجابة على الأسئلة المرئية، وتحويل النصوص إلى صور.
هل تُعدّ أوزان الانتباه مفيدة لتفسير النموذج؟
يمكن أن توفر أوزان الانتباه بعض المؤشرات حول المدخلات التي يركز عليها النموذج، ولكن لا ينبغي اعتبارها تفسيرات نهائية. فقد أظهرت الدراسات أن الانتباه لا يرتبط دائمًا بأهمية السمات، وقد تكون طرق التفسير الأخرى أكثر موثوقية.
ما هو الانتباه متعدد الرؤوس ولماذا هو مهم؟
تُشغّل آلية الانتباه متعددة الرؤوس عدة عمليات انتباه بالتوازي، حيث يتعلم كل رأس التركيز على أنواع مختلفة من العلاقات. في معالجة اللغات الطبيعية، قد يتتبع أحد الرؤوس التبعيات النحوية بينما يلتقط رأس آخر التشابه الدلالي. أما في مجال الرؤية الحاسوبية، فيمكن لرؤوس مختلفة الانتباه إلى أنماط مكانية متنوعة أو أجزاء من الكائنات في آن واحد.
هل تستخدم نماذج الرؤية تقنية الإخفاء السببي مثل برامج فك تشفير معالجة اللغة الطبيعية؟
تستخدم معظم نماذج الرؤية آلية الانتباه ثنائي الاتجاه دون إخفاء السببية، لأن فهم الصورة لا يتطلب ترتيبًا تسلسليًا. مع ذلك، تقوم المشفرات التلقائية المقنعة بإخفاء أجزاء عشوائية أثناء التدريب لتشجيع النموذج على تعلم تمثيلات قوية، وهي متشابهة في المبدأ ولكنها مختلفة في الغاية.
كيف تختلف التضمينات الموضعية بين الرؤية ومعالجة اللغة الطبيعية؟
تستخدم معالجة اللغة الطبيعية تمثيلات موضعية أحادية البعد لترميز ترتيب الرموز في التسلسل، بينما تحتاج نماذج الرؤية إلى تمثيلات موضعية ثنائية الأبعاد للحفاظ على العلاقات المكانية عبر ارتفاع الصورة وعرضها. كما تستخدم بعض نماذج الرؤية المتقدمة ترميز الموضع النسبي لتحسين التعامل مع دقة الصور المتفاوتة.
هل ستظل آليات الانتباه مهيمنة في الذكاء الاصطناعي؟
تتصدر البنى القائمة على آلية الانتباه حاليًا معظم معايير الذكاء الاصطناعي، لكن الأبحاث مستمرة لاستكشاف بدائل مثل نماذج فضاء الحالة (مامبا)، ونماذج مزيج الخبراء، والبنى الجديدة. يتطور هذا المجال بسرعة، وقد تُشكل المناهج الهجينة التي تجمع بين آلية الانتباه وآليات أخرى الجيل القادم من النماذج.
الحكم
اختر الانتباه البصري عندما تتطلب مهمتك فهم العلاقات المكانية في الصور أو مقاطع الفيديو، خاصةً عند التعامل مع مجموعات بيانات ضخمة والحاجة إلى تحديد دقيق للموقع. اختر الانتباه اللغوي عند العمل مع بيانات نصية متسلسلة تتطلب فهم السياق أو توليده أو ترجمته. في المشاريع متعددة الوسائط، غالبًا ما يحقق الجمع بين النوعين من خلال الانتباه المتبادل أفضل النتائج.