هوش مصنوعییادگیری عمیقمکانیسمهای توجهبینایی کامپیوتران ال پیترانسفورماتورها
مکانیسمهای توجه در بینایی در مقابل توجه در NLP
مکانیسمهای توجه، هوش مصنوعی مدرن را در هر دو حوزه بینایی کامپیوتر و پردازش زبان طبیعی تقویت میکنند، اما آنها اهداف متمایزی را دنبال میکنند و در مسیرهای متفاوتی تکامل یافتهاند. توجه بینایی به مدلها کمک میکند تا بر مناطق تصویر مربوطه تمرکز کنند، در حالی که توجه NLP درک روابط کلمات در توالیهای متنی را ممکن میسازد.
برجستهها
توجه بینایی بر نواحی مکانی تمرکز دارد در حالی که توجه NLP روابط نشانهها را در توالیها ثبت میکند.
توجه NLP مقدم بر توجه به بینایی است، و معماری Transformer سالها بعد الهامبخش Vision Transformers شد.
مدلهای بینایی از جاسازیهای موقعیتی دوبعدی استفاده میکنند در حالی که مدلهای NLP به اطلاعات موقعیتی یکبعدی متکی هستند.
اکنون Cross-attention هر دو حوزه را به هم متصل میکند و سیستمهای هوش مصنوعی چندوجهی قدرتمندی مانند CLIP و GPT-4V را امکانپذیر میسازد.
مکانیسمهای توجه در بینایی چیست؟
تکنیکهایی که به مدلهای بینایی اجازه میدهند تا به صورت انتخابی روی مناطق یا ویژگیهای مکانی مهم در تصاویر و ویدیوها تمرکز کنند.
Vision Transformers (ViT) تصاویر را به تکههایی تقسیم میکند و با اعمال self-attention، به نتایج پیشرفتهای در ImageNet دست مییابد.
توجه فضایی به مدلها کمک میکند تا تشخیص دهند کدام بخشهای یک تصویر برای کارهایی مانند تشخیص اشیا و تقسیمبندی، بیشترین اهمیت را دارند.
توجه به کانال، که توسط شبکههای فشار و تحریک رواج یافته است، پاسخهای ویژگیها را در کانالهای فیلتر مجدداً کالیبره میکند.
مدلهای بینایی مبتنی بر توجه اغلب زمانی که دادههای آموزشی کافی، معمولاً میلیونها تصویر، در دسترس باشد، از CNNها بهتر عمل میکنند.
توجه متقابل در مدلهای زبان-بینایی مانند CLIP، تکههای تصویر را با نشانههای متنی برای درک چندوجهی همسو میکند.
توجه در NLP چیست؟
روشهایی که مدلهای زبانی را قادر میسازند تا هنگام پردازش دادههای متنی متوالی، اهمیت کلمات و توکنهای مختلف را بسنجند.
معماری ترنسفورمر که در سال ۲۰۱۷ معرفی شد، کاملاً بر توجه به خود متکی است و NLP را متحول کرد.
خودتوجهی به هر نشانه در یک توالی اجازه میدهد تا به هر نشانه دیگر توجه کند و وابستگیهای بلندمدت را در بر بگیرد.
توجه چندوجهی چندین عملیات توجه را به صورت موازی اجرا میکند و به مدلها اجازه میدهد تا به طور همزمان بر انواع مختلف روابط تمرکز کنند.
پوشش سببی در مدلهای رمزگشا مانند GPT تضمین میکند که هر توکن در طول تولید متن فقط به توکنهای قبلی توجه میکند.
مکانیسمهای توجه جایگزین RNNها و LSTMها به عنوان رویکرد غالب برای ترجمه، خلاصهسازی و مدلسازی زبان شدند.
جدول مقایسه
ویژگی
مکانیسمهای توجه در بینایی
توجه در NLP
نوع ورودی اصلی
تصاویر، فریمهای ویدیویی یا وصلههای بصری
توکنهای متنی، کلمات یا واحدهای زیرکلمه
توجه جزئی
نواحی مکانی، تکهها یا کانالهای ویژگی
روابط توکن به توکن در توالیها
معماری مبدا
Vision Transformer (ViT)، DETR، SE-Net
رمزگذار-رمزگشای ترانسفورماتور اصلی (واسوانی و همکاران، ۲۰۱۷)
پیچیدگی محاسباتی
درجه دوم با وضوح تصویر؛ روشهای مبتنی بر وصله هزینه را کاهش میدهند
درجه دوم با طول توالی؛ انواع توجه پراکنده وجود دارد
موارد استفاده معمول
طبقهبندی تصویر، تشخیص شیء، قطعهبندی، درک ویدیو
ترجمه، تولید متن، پاسخ به سوالات، خلاصه سازی
استراتژی پوشش
معمولاً هیچ پوشش علیتی وجود ندارد؛ توجه دو طرفه رایج است
پوشش سببی برای رمزگشاها؛ دو جهته برای رمزگذارها
اطلاعات موقعیتی
تعبیههای موقعیتی دوبعدی برای ساختار فضایی
جاسازیهای موقعیتی تکبعدی برای ترتیب توکنها
الزامات داده
مجموعه دادههای تصویری در مقیاس بزرگ مانند ImageNet یا JFT-300M
پیکرههای متنی بزرگ مانند Common Crawl یا ویکیپدیا
مقایسه دقیق
هدف و عملکرد اصلی
توجه بینایی به مدلها کمک میکند تا تصمیم بگیرند که در یک تصویر به کجا نگاه کنند، و اساساً نواحی مکانی را که مرتبطترین اطلاعات را برای یک کار مشخص دارند، برجسته میکند. از سوی دیگر، توجه NLP تعیین میکند که کلمات چگونه در یک جمله یا در یک سند به یکدیگر مرتبط میشوند و وابستگیهای معنایی را صرف نظر از فاصله ثبت میکند. هر دو ایده اساسی یکسانی از اهمیت وزنی دارند، اما ساختارهایی که بر روی آنها عمل میکنند، تفاوت قابل توجهی دارند.
تکامل معماری
توجه NLP ابتدا به شکل مدرن خود، با مقاله Transformer در سال ۲۰۱۷ که توجه به خود را به عنوان ستون فقرات درک زبان معرفی کرد، مطرح شد. توجه بینایی به شدت از این پیشرفتهای NLP وام گرفته شده است، و Vision Transformers در سال ۲۰۲۰ نشان داد که معماریهای صرفاً مبتنی بر توجه میتوانند با شبکههای کانولوشنی مطابقت داشته یا از آنها پیشی بگیرند. از آن زمان، این دو حوزه به همافزایی متقابل ادامه دادهاند، و تکنیکهایی مانند توجه متقابل اکنون بینایی و زبان را در مدلهای چندوجهی به هم پیوند میدهند.
ملاحظات محاسباتی
هر دو با چالشهای پیچیدگی درجه دوم مواجه هستند، اما مقیاس آنها متفاوت است. مدلهای NLP با توالیهایی از صدها تا صدها هزار توکن سروکار دارند، در حالی که مدلهای بینایی باید تصاویری را مدیریت کنند که میتوانند شامل هزاران تکه با وضوح بالا باشند. محققان بینایی انواع کارآمدی مانند توجه پنجرهای Swin Transformer را توسعه دادهاند، در حالی که NLP روشهای توجه پراکنده و خطی را برای مدیریت زمینههای طولانیتر تولید کرده است.
پوشش و جهتگیری
یک تمایز کلیدی در نحوه جریان توجه نهفته است. مدلهای رمزگشای NLP از پوشش علی استفاده میکنند، بنابراین هر نشانه فقط نشانه قبلی را میبیند، که برای تولید متن خودهمبسته ضروری است. مدلهای بینایی معمولاً از توجه دو طرفه استفاده میکنند زیرا درک یک تصویر نیازی به ترتیب چپ به راست ندارد. برخی از وظایف بینایی از توجه پنهان استفاده میکنند، به ویژه در رمزگذارهای خودکار پنهان که بخشهایی از ورودی در طول آموزش پنهان میشوند.
رمزگذاری موقعیتی
از آنجا که متن دارای ترتیب طبیعی است، پردازش زبان طبیعی (NLP) از جاسازیهای موقعیتی یکبعدی برای تعیین جایگاه هر توکن در توالی استفاده میکند. بینایی برای حفظ روابط مکانی بین تکهها به جاسازیهای موقعیتی دوبعدی نیاز دارد، زیرا تصاویر دارای ابعاد ارتفاع و عرض هستند. این تفاوت بر نحوه طراحی طرحهای جاسازی هر دامنه و نحوه تعمیم مدلها به اندازههای مختلف ورودی تأثیر میگذارد.
برنامههای کاربردی بین دامنهای
مرز بین توجه بینایی و NLP به طور قابل توجهی محو شده است. مدلهایی مانند CLIP، DALL-E و Flamingo از توجه متقابل برای اتصال بازنماییهای بصری و متنی استفاده میکنند و وظایفی مانند نوشتن شرح تصویر، پاسخ به سؤالات بصری و تولید متن به تصویر را امکانپذیر میسازند. این سیستمهای چندوجهی نشان میدهند که مکانیسمهای توجه به طور قابل توجهی انعطافپذیر هستند و میتوانند انواع مختلف دادهها را در یک معماری واحد متحد کنند.
مزایا و معایب
مکانیسمهای توجه در بینایی
مزایا
+زمینه جهانی را در بر میگیرد
+قوی در مجموعه دادههای بزرگ
+نقشههای توجه قابل تفسیر
+معماری انعطافپذیر
مصرف شده
−هزینه محاسباتی بالا
−به دادههای زیادی نیاز دارد
−پیچیدگی مبتنی بر وصله
−بایاس القایی کمتر
توجه در NLP
مزایا
+وابستگیهای طولانی را مدیریت میکند
+آموزش موازی
+قدرت LLM های مدرن
+یادگیری انتقالی غنی
مصرف شده
−پیچیدگی درجه دوم
−محدودیتهای طول متن
−خطرات توهم
−منابع فشرده
تصورات نادرست رایج
افسانه
مکانیسمهای توجه در بینایی و NLP فناوریهای کاملاً متفاوتی هستند.
واقعیت
آنها پایه ریاضی یکسانی برای محاسبه مجموع وزنی بر اساس تعاملات پرس و جو-کلید-مقدار دارند. تفاوتها عمدتاً در نحوه ساختار ورودیها و اطلاعات موقعیتی اضافه شده است، نه در خود مکانیسم اساسی.
افسانه
Vision Transformers حتی با مجموعه دادههای کوچک نیز به خوبی کار میکند.
واقعیت
برخلاف CNNها که دارای بایاسهای استقرایی داخلی هستند، ViTها معمولاً برای عملکرد بهتر از رویکردهای کانولوشنی به مجموعه دادههای عظیم (اغلب صدها میلیون تصویر) نیاز دارند. در مجموعه دادههای کوچکتر، CNNها اغلب همچنان برنده میشوند، مگر اینکه منظمسازی یا پیشآموزش قوی اعمال شود.
افسانه
توجه در NLP به این معنی است که مدل واقعاً زبان را درک میکند.
واقعیت
توجه یک مکانیسم محاسباتی برای وزندهی به ورودیها است، نه تضمینی برای درک آنها. مدلهای زبانی بزرگ میتوانند متن روان تولید کنند، در حالی که همچنان دچار خطاهای استدلال، توهم حقایق یا شکست در وظایف منطقی ساده میشوند.
افسانه
توجه، جایگزین شبکههای کانولوشن و بازگشتی به طور کامل میشود.
واقعیت
معماریهای ترکیبی همچنان محبوب هستند و اغلب عملکرد بهتری نسبت به مدلهای توجه محض دارند. لایههای کانولوشن هنوز در بسیاری از سیستمهای بینایی پیشرفته ظاهر میشوند و برخی از مدلهای NLP از ترکیب توجه با سایر رویکردها سود میبرند.
افسانه
نقشههای توجه مستقیماً نشان میدهند که مدل به چه چیزی فکر میکند.
واقعیت
وزنهای توجه همیشه توضیحات قابل اعتمادی برای رفتار مدل نیستند. تحقیقات نشان داده است که توزیع توجه لزوماً با اهمیت ویژگیها همبستگی ندارد و تفسیر آنها نیاز به احتیاط دارد.
سوالات متداول
تفاوت اصلی بین توجه در بینایی و NLP چیست؟
توجه بینایی بر روی ساختارهای فضایی دوبعدی مانند تکههای تصویر عمل میکند و بر شناسایی مناطق مهم تمرکز دارد، در حالی که توجه NLP بر روی توالیهای توکن یکبعدی برای ثبت روابط بین کلمات کار میکند. هر دو از فرمولهای ریاضی مشابهی استفاده میکنند اما در نحوه رمزگذاری اطلاعات موقعیتی و نحوه اعمال پوشش متفاوت هستند.
آیا مکانیسمهای توجه از NLP یا بینایی کامپیوتر سرچشمه گرفتهاند؟
مکانیسمهای توجه مدرن از NLP سرچشمه گرفتهاند، و مقاله Transformer نوشته واسوانی و همکارانش در سال ۲۰۱۷ نقطه عطفی در این زمینه بود. Vision Transformers (ViT) بعداً در سال ۲۰۲۰ از راه رسید و همان اصول خودتوجهی را از زبان به تصاویر با در نظر گرفتن آنها به عنوان توالیهایی از تکهها تطبیق داد.
آیا مکانیسمهای توجه میتوانند توالیهای طولانی یا تصاویر با وضوح بالا را مدیریت کنند؟
خودتوجهی استاندارد پیچیدگی درجه دوم دارد و برای ورودیهای طولانی گران تمام میشود. محققان انواع کارآمدی مانند Linformer، Performer و Longformer را برای پردازش زبان طبیعی (NLP) و Swin Transformer یا MaxViT را برای بینایی توسعه دادهاند که هزینههای محاسباتی را کاهش میدهند و در عین حال عملکرد را حفظ میکنند.
چرا Vision Transformers به این همه داده آموزشی نیاز دارد؟
برخلاف CNNها که فرضیاتی در مورد محلی بودن و تغییرناپذیری ترجمه دارند، ViTها باید این روابط مکانی را از ابتدا و از طریق توجه یاد بگیرند. بدون دادههای کافی، آنها تمایل به بیشبرازش دارند، به همین دلیل است که پیشآموزش در مقیاس بزرگ روی مجموعه دادههایی مانند JFT-300M اغلب ضروری است.
چگونه توجه متقابل، مدلهای بینایی و زبانی را به هم مرتبط میکند؟
توجه متقابل به نشانههای یک روش اجازه میدهد تا به نشانههای روش دیگر توجه کنند و مدلهایی مانند CLIP را قادر میسازد تا تکههای تصویر را با توضیحات متنی همتراز کنند. این مکانیسم برای سیستمهای چندوجهی که زیرنویس تصویر، پاسخ به سؤالات بصری و تولید متن به تصویر را انجام میدهند، اساسی است.
آیا وزنهای توجه برای تفسیرپذیری مدل مفید هستند؟
وزنهای توجه میتوانند بینشی در مورد ورودیهایی که مدل روی آنها تمرکز میکند ارائه دهند، اما نباید آنها را به عنوان توضیحات قطعی در نظر گرفت. مطالعات نشان دادهاند که توجه همیشه با اهمیت ویژگی همبستگی ندارد و سایر روشهای تفسیرپذیری ممکن است قابل اعتمادتر باشند.
توجه چند وجهی چیست و چرا مهم است؟
توجه چند سر، چندین عملیات توجه را به صورت موازی اجرا میکند و هر کدام یاد میگیرند که روی انواع مختلفی از روابط تمرکز کنند. در NLP، یک سر ممکن است وابستگیهای نحوی را ردیابی کند در حالی که دیگری شباهت معنایی را ثبت میکند. در بینایی، سرهای مختلف میتوانند به طور همزمان به الگوهای مکانی یا بخشهای مختلف شیء توجه کنند.
آیا مدلهای بینایی مانند رمزگشاهای NLP از پوشش علی استفاده میکنند؟
بیشتر مدلهای بینایی از توجه دوطرفه بدون پوشش سببی استفاده میکنند، زیرا درک یک تصویر نیازی به ترتیب متوالی ندارد. با این حال، رمزگذارهای خودکار پوششدار، تکههای تصادفی را در طول آموزش پنهان میکنند تا مدل را به یادگیری بازنماییهای قوی، که از نظر ماهیت مشابه اما از نظر هدف متفاوت هستند، تشویق کنند.
چگونه جاسازیهای موقعیتی بین بینایی و NLP متفاوت هستند؟
پردازش زبان طبیعی (NLP) از جاسازیهای موقعیتی یکبعدی برای رمزگذاری ترتیب توکنها در یک توالی استفاده میکند، در حالی که مدلهای بینایی برای حفظ روابط مکانی در طول و عرض تصویر به جاسازیهای موقعیتی دوبعدی نیاز دارند. برخی از مدلهای بینایی پیشرفته نیز از رمزگذاری موقعیت نسبی برای مدیریت بهتر وضوحهای مختلف تصویر استفاده میکنند.
آیا مکانیسمهای توجه در هوش مصنوعی غالب خواهند ماند؟
معماریهای مبتنی بر توجه در حال حاضر در اکثر معیارهای هوش مصنوعی پیشرو هستند، اما تحقیقات در مورد گزینههای دیگری مانند مدلهای فضای حالت (مامبا)، ترکیبی از متخصصان و معماریهای جدید ادامه دارد. این حوزه به سرعت در حال تکامل است و رویکردهای ترکیبی که توجه را با سایر مکانیسمها ترکیب میکنند، ممکن است نسل بعدی مدلها را شکل دهند.
حکم
وقتی وظیفه شما شامل درک روابط مکانی در تصاویر یا ویدیو است، به خصوص وقتی مجموعه دادههای بزرگی دارید و به محلیسازی دقیق نیاز دارید، توجه بینایی را انتخاب کنید. وقتی با دادههای متنی متوالی کار میکنید که نیاز به درک زمینه، تولید یا ترجمه دارند، توجه NLP را انتخاب کنید. برای پروژههای چندوجهی، ترکیب هر دو از طریق توجه متقابل اغلب بهترین نتایج را به همراه دارد.