Comparthing Logo
هوش مصنوعییادگیری عمیقمکانیسم‌های توجهبینایی کامپیوتران ال پیترانسفورماتورها

مکانیسم‌های توجه در بینایی در مقابل توجه در NLP

مکانیسم‌های توجه، هوش مصنوعی مدرن را در هر دو حوزه بینایی کامپیوتر و پردازش زبان طبیعی تقویت می‌کنند، اما آنها اهداف متمایزی را دنبال می‌کنند و در مسیرهای متفاوتی تکامل یافته‌اند. توجه بینایی به مدل‌ها کمک می‌کند تا بر مناطق تصویر مربوطه تمرکز کنند، در حالی که توجه NLP درک روابط کلمات در توالی‌های متنی را ممکن می‌سازد.

برجسته‌ها

  • توجه بینایی بر نواحی مکانی تمرکز دارد در حالی که توجه NLP روابط نشانه‌ها را در توالی‌ها ثبت می‌کند.
  • توجه NLP مقدم بر توجه به بینایی است، و معماری Transformer سال‌ها بعد الهام‌بخش Vision Transformers شد.
  • مدل‌های بینایی از جاسازی‌های موقعیتی دوبعدی استفاده می‌کنند در حالی که مدل‌های NLP به اطلاعات موقعیتی یک‌بعدی متکی هستند.
  • اکنون Cross-attention هر دو حوزه را به هم متصل می‌کند و سیستم‌های هوش مصنوعی چندوجهی قدرتمندی مانند CLIP و GPT-4V را امکان‌پذیر می‌سازد.

مکانیسم‌های توجه در بینایی چیست؟

تکنیک‌هایی که به مدل‌های بینایی اجازه می‌دهند تا به صورت انتخابی روی مناطق یا ویژگی‌های مکانی مهم در تصاویر و ویدیوها تمرکز کنند.

  • Vision Transformers (ViT) تصاویر را به تکه‌هایی تقسیم می‌کند و با اعمال self-attention، به نتایج پیشرفته‌ای در ImageNet دست می‌یابد.
  • توجه فضایی به مدل‌ها کمک می‌کند تا تشخیص دهند کدام بخش‌های یک تصویر برای کارهایی مانند تشخیص اشیا و تقسیم‌بندی، بیشترین اهمیت را دارند.
  • توجه به کانال، که توسط شبکه‌های فشار و تحریک رواج یافته است، پاسخ‌های ویژگی‌ها را در کانال‌های فیلتر مجدداً کالیبره می‌کند.
  • مدل‌های بینایی مبتنی بر توجه اغلب زمانی که داده‌های آموزشی کافی، معمولاً میلیون‌ها تصویر، در دسترس باشد، از CNNها بهتر عمل می‌کنند.
  • توجه متقابل در مدل‌های زبان-بینایی مانند CLIP، تکه‌های تصویر را با نشانه‌های متنی برای درک چندوجهی همسو می‌کند.

توجه در NLP چیست؟

روش‌هایی که مدل‌های زبانی را قادر می‌سازند تا هنگام پردازش داده‌های متنی متوالی، اهمیت کلمات و توکن‌های مختلف را بسنجند.

  • معماری ترنسفورمر که در سال ۲۰۱۷ معرفی شد، کاملاً بر توجه به خود متکی است و NLP را متحول کرد.
  • خودتوجهی به هر نشانه در یک توالی اجازه می‌دهد تا به هر نشانه دیگر توجه کند و وابستگی‌های بلندمدت را در بر بگیرد.
  • توجه چندوجهی چندین عملیات توجه را به صورت موازی اجرا می‌کند و به مدل‌ها اجازه می‌دهد تا به طور همزمان بر انواع مختلف روابط تمرکز کنند.
  • پوشش سببی در مدل‌های رمزگشا مانند GPT تضمین می‌کند که هر توکن در طول تولید متن فقط به توکن‌های قبلی توجه می‌کند.
  • مکانیسم‌های توجه جایگزین RNNها و LSTMها به عنوان رویکرد غالب برای ترجمه، خلاصه‌سازی و مدل‌سازی زبان شدند.

جدول مقایسه

ویژگی مکانیسم‌های توجه در بینایی توجه در NLP
نوع ورودی اصلی تصاویر، فریم‌های ویدیویی یا وصله‌های بصری توکن‌های متنی، کلمات یا واحدهای زیرکلمه
توجه جزئی نواحی مکانی، تکه‌ها یا کانال‌های ویژگی روابط توکن به توکن در توالی‌ها
معماری مبدا Vision Transformer (ViT)، DETR، SE-Net رمزگذار-رمزگشای ترانسفورماتور اصلی (واسوانی و همکاران، ۲۰۱۷)
پیچیدگی محاسباتی درجه دوم با وضوح تصویر؛ روش‌های مبتنی بر وصله هزینه را کاهش می‌دهند درجه دوم با طول توالی؛ انواع توجه پراکنده وجود دارد
موارد استفاده معمول طبقه‌بندی تصویر، تشخیص شیء، قطعه‌بندی، درک ویدیو ترجمه، تولید متن، پاسخ به سوالات، خلاصه سازی
استراتژی پوشش معمولاً هیچ پوشش علیتی وجود ندارد؛ توجه دو طرفه رایج است پوشش سببی برای رمزگشاها؛ دو جهته برای رمزگذارها
اطلاعات موقعیتی تعبیه‌های موقعیتی دوبعدی برای ساختار فضایی جاسازی‌های موقعیتی تک‌بعدی برای ترتیب توکن‌ها
الزامات داده مجموعه داده‌های تصویری در مقیاس بزرگ مانند ImageNet یا JFT-300M پیکره‌های متنی بزرگ مانند Common Crawl یا ویکی‌پدیا

مقایسه دقیق

هدف و عملکرد اصلی

توجه بینایی به مدل‌ها کمک می‌کند تا تصمیم بگیرند که در یک تصویر به کجا نگاه کنند، و اساساً نواحی مکانی را که مرتبط‌ترین اطلاعات را برای یک کار مشخص دارند، برجسته می‌کند. از سوی دیگر، توجه NLP تعیین می‌کند که کلمات چگونه در یک جمله یا در یک سند به یکدیگر مرتبط می‌شوند و وابستگی‌های معنایی را صرف نظر از فاصله ثبت می‌کند. هر دو ایده اساسی یکسانی از اهمیت وزنی دارند، اما ساختارهایی که بر روی آنها عمل می‌کنند، تفاوت قابل توجهی دارند.

تکامل معماری

توجه NLP ابتدا به شکل مدرن خود، با مقاله Transformer در سال ۲۰۱۷ که توجه به خود را به عنوان ستون فقرات درک زبان معرفی کرد، مطرح شد. توجه بینایی به شدت از این پیشرفت‌های NLP وام گرفته شده است، و Vision Transformers در سال ۲۰۲۰ نشان داد که معماری‌های صرفاً مبتنی بر توجه می‌توانند با شبکه‌های کانولوشنی مطابقت داشته یا از آنها پیشی بگیرند. از آن زمان، این دو حوزه به هم‌افزایی متقابل ادامه داده‌اند، و تکنیک‌هایی مانند توجه متقابل اکنون بینایی و زبان را در مدل‌های چندوجهی به هم پیوند می‌دهند.

ملاحظات محاسباتی

هر دو با چالش‌های پیچیدگی درجه دوم مواجه هستند، اما مقیاس آنها متفاوت است. مدل‌های NLP با توالی‌هایی از صدها تا صدها هزار توکن سروکار دارند، در حالی که مدل‌های بینایی باید تصاویری را مدیریت کنند که می‌توانند شامل هزاران تکه با وضوح بالا باشند. محققان بینایی انواع کارآمدی مانند توجه پنجره‌ای Swin Transformer را توسعه داده‌اند، در حالی که NLP روش‌های توجه پراکنده و خطی را برای مدیریت زمینه‌های طولانی‌تر تولید کرده است.

پوشش و جهت‌گیری

یک تمایز کلیدی در نحوه جریان توجه نهفته است. مدل‌های رمزگشای NLP از پوشش علی استفاده می‌کنند، بنابراین هر نشانه فقط نشانه قبلی را می‌بیند، که برای تولید متن خودهمبسته ضروری است. مدل‌های بینایی معمولاً از توجه دو طرفه استفاده می‌کنند زیرا درک یک تصویر نیازی به ترتیب چپ به راست ندارد. برخی از وظایف بینایی از توجه پنهان استفاده می‌کنند، به ویژه در رمزگذارهای خودکار پنهان که بخش‌هایی از ورودی در طول آموزش پنهان می‌شوند.

رمزگذاری موقعیتی

از آنجا که متن دارای ترتیب طبیعی است، پردازش زبان طبیعی (NLP) از جاسازی‌های موقعیتی یک‌بعدی برای تعیین جایگاه هر توکن در توالی استفاده می‌کند. بینایی برای حفظ روابط مکانی بین تکه‌ها به جاسازی‌های موقعیتی دوبعدی نیاز دارد، زیرا تصاویر دارای ابعاد ارتفاع و عرض هستند. این تفاوت بر نحوه طراحی طرح‌های جاسازی هر دامنه و نحوه تعمیم مدل‌ها به اندازه‌های مختلف ورودی تأثیر می‌گذارد.

برنامه‌های کاربردی بین دامنه‌ای

مرز بین توجه بینایی و NLP به طور قابل توجهی محو شده است. مدل‌هایی مانند CLIP، DALL-E و Flamingo از توجه متقابل برای اتصال بازنمایی‌های بصری و متنی استفاده می‌کنند و وظایفی مانند نوشتن شرح تصویر، پاسخ به سؤالات بصری و تولید متن به تصویر را امکان‌پذیر می‌سازند. این سیستم‌های چندوجهی نشان می‌دهند که مکانیسم‌های توجه به طور قابل توجهی انعطاف‌پذیر هستند و می‌توانند انواع مختلف داده‌ها را در یک معماری واحد متحد کنند.

مزایا و معایب

مکانیسم‌های توجه در بینایی

مزایا

  • + زمینه جهانی را در بر می‌گیرد
  • + قوی در مجموعه داده‌های بزرگ
  • + نقشه‌های توجه قابل تفسیر
  • + معماری انعطاف‌پذیر

مصرف شده

  • هزینه محاسباتی بالا
  • به داده‌های زیادی نیاز دارد
  • پیچیدگی مبتنی بر وصله
  • بایاس القایی کمتر

توجه در NLP

مزایا

  • + وابستگی‌های طولانی را مدیریت می‌کند
  • + آموزش موازی
  • + قدرت LLM های مدرن
  • + یادگیری انتقالی غنی

مصرف شده

  • پیچیدگی درجه دوم
  • محدودیت‌های طول متن
  • خطرات توهم
  • منابع فشرده

تصورات نادرست رایج

افسانه

مکانیسم‌های توجه در بینایی و NLP فناوری‌های کاملاً متفاوتی هستند.

واقعیت

آنها پایه ریاضی یکسانی برای محاسبه مجموع وزنی بر اساس تعاملات پرس و جو-کلید-مقدار دارند. تفاوت‌ها عمدتاً در نحوه ساختار ورودی‌ها و اطلاعات موقعیتی اضافه شده است، نه در خود مکانیسم اساسی.

افسانه

Vision Transformers حتی با مجموعه داده‌های کوچک نیز به خوبی کار می‌کند.

واقعیت

برخلاف CNNها که دارای بایاس‌های استقرایی داخلی هستند، ViTها معمولاً برای عملکرد بهتر از رویکردهای کانولوشنی به مجموعه داده‌های عظیم (اغلب صدها میلیون تصویر) نیاز دارند. در مجموعه داده‌های کوچکتر، CNNها اغلب همچنان برنده می‌شوند، مگر اینکه منظم‌سازی یا پیش‌آموزش قوی اعمال شود.

افسانه

توجه در NLP به این معنی است که مدل واقعاً زبان را درک می‌کند.

واقعیت

توجه یک مکانیسم محاسباتی برای وزن‌دهی به ورودی‌ها است، نه تضمینی برای درک آنها. مدل‌های زبانی بزرگ می‌توانند متن روان تولید کنند، در حالی که همچنان دچار خطاهای استدلال، توهم حقایق یا شکست در وظایف منطقی ساده می‌شوند.

افسانه

توجه، جایگزین شبکه‌های کانولوشن و بازگشتی به طور کامل می‌شود.

واقعیت

معماری‌های ترکیبی همچنان محبوب هستند و اغلب عملکرد بهتری نسبت به مدل‌های توجه محض دارند. لایه‌های کانولوشن هنوز در بسیاری از سیستم‌های بینایی پیشرفته ظاهر می‌شوند و برخی از مدل‌های NLP از ترکیب توجه با سایر رویکردها سود می‌برند.

افسانه

نقشه‌های توجه مستقیماً نشان می‌دهند که مدل به چه چیزی فکر می‌کند.

واقعیت

وزن‌های توجه همیشه توضیحات قابل اعتمادی برای رفتار مدل نیستند. تحقیقات نشان داده است که توزیع توجه لزوماً با اهمیت ویژگی‌ها همبستگی ندارد و تفسیر آنها نیاز به احتیاط دارد.

سوالات متداول

تفاوت اصلی بین توجه در بینایی و NLP چیست؟
توجه بینایی بر روی ساختارهای فضایی دوبعدی مانند تکه‌های تصویر عمل می‌کند و بر شناسایی مناطق مهم تمرکز دارد، در حالی که توجه NLP بر روی توالی‌های توکن یک‌بعدی برای ثبت روابط بین کلمات کار می‌کند. هر دو از فرمول‌های ریاضی مشابهی استفاده می‌کنند اما در نحوه رمزگذاری اطلاعات موقعیتی و نحوه اعمال پوشش متفاوت هستند.
آیا مکانیسم‌های توجه از NLP یا بینایی کامپیوتر سرچشمه گرفته‌اند؟
مکانیسم‌های توجه مدرن از NLP سرچشمه گرفته‌اند، و مقاله Transformer نوشته واسوانی و همکارانش در سال ۲۰۱۷ نقطه عطفی در این زمینه بود. Vision Transformers (ViT) بعداً در سال ۲۰۲۰ از راه رسید و همان اصول خودتوجهی را از زبان به تصاویر با در نظر گرفتن آنها به عنوان توالی‌هایی از تکه‌ها تطبیق داد.
آیا مکانیسم‌های توجه می‌توانند توالی‌های طولانی یا تصاویر با وضوح بالا را مدیریت کنند؟
خودتوجهی استاندارد پیچیدگی درجه دوم دارد و برای ورودی‌های طولانی گران تمام می‌شود. محققان انواع کارآمدی مانند Linformer، Performer و Longformer را برای پردازش زبان طبیعی (NLP) و Swin Transformer یا MaxViT را برای بینایی توسعه داده‌اند که هزینه‌های محاسباتی را کاهش می‌دهند و در عین حال عملکرد را حفظ می‌کنند.
چرا Vision Transformers به این همه داده آموزشی نیاز دارد؟
برخلاف CNNها که فرضیاتی در مورد محلی بودن و تغییرناپذیری ترجمه دارند، ViTها باید این روابط مکانی را از ابتدا و از طریق توجه یاد بگیرند. بدون داده‌های کافی، آنها تمایل به بیش‌برازش دارند، به همین دلیل است که پیش‌آموزش در مقیاس بزرگ روی مجموعه داده‌هایی مانند JFT-300M اغلب ضروری است.
چگونه توجه متقابل، مدل‌های بینایی و زبانی را به هم مرتبط می‌کند؟
توجه متقابل به نشانه‌های یک روش اجازه می‌دهد تا به نشانه‌های روش دیگر توجه کنند و مدل‌هایی مانند CLIP را قادر می‌سازد تا تکه‌های تصویر را با توضیحات متنی هم‌تراز کنند. این مکانیسم برای سیستم‌های چندوجهی که زیرنویس تصویر، پاسخ به سؤالات بصری و تولید متن به تصویر را انجام می‌دهند، اساسی است.
آیا وزن‌های توجه برای تفسیرپذیری مدل مفید هستند؟
وزن‌های توجه می‌توانند بینشی در مورد ورودی‌هایی که مدل روی آنها تمرکز می‌کند ارائه دهند، اما نباید آنها را به عنوان توضیحات قطعی در نظر گرفت. مطالعات نشان داده‌اند که توجه همیشه با اهمیت ویژگی همبستگی ندارد و سایر روش‌های تفسیرپذیری ممکن است قابل اعتمادتر باشند.
توجه چند وجهی چیست و چرا مهم است؟
توجه چند سر، چندین عملیات توجه را به صورت موازی اجرا می‌کند و هر کدام یاد می‌گیرند که روی انواع مختلفی از روابط تمرکز کنند. در NLP، یک سر ممکن است وابستگی‌های نحوی را ردیابی کند در حالی که دیگری شباهت معنایی را ثبت می‌کند. در بینایی، سرهای مختلف می‌توانند به طور همزمان به الگوهای مکانی یا بخش‌های مختلف شیء توجه کنند.
آیا مدل‌های بینایی مانند رمزگشاهای NLP از پوشش علی استفاده می‌کنند؟
بیشتر مدل‌های بینایی از توجه دوطرفه بدون پوشش سببی استفاده می‌کنند، زیرا درک یک تصویر نیازی به ترتیب متوالی ندارد. با این حال، رمزگذارهای خودکار پوشش‌دار، تکه‌های تصادفی را در طول آموزش پنهان می‌کنند تا مدل را به یادگیری بازنمایی‌های قوی، که از نظر ماهیت مشابه اما از نظر هدف متفاوت هستند، تشویق کنند.
چگونه جاسازی‌های موقعیتی بین بینایی و NLP متفاوت هستند؟
پردازش زبان طبیعی (NLP) از جاسازی‌های موقعیتی یک‌بعدی برای رمزگذاری ترتیب توکن‌ها در یک توالی استفاده می‌کند، در حالی که مدل‌های بینایی برای حفظ روابط مکانی در طول و عرض تصویر به جاسازی‌های موقعیتی دوبعدی نیاز دارند. برخی از مدل‌های بینایی پیشرفته نیز از رمزگذاری موقعیت نسبی برای مدیریت بهتر وضوح‌های مختلف تصویر استفاده می‌کنند.
آیا مکانیسم‌های توجه در هوش مصنوعی غالب خواهند ماند؟
معماری‌های مبتنی بر توجه در حال حاضر در اکثر معیارهای هوش مصنوعی پیشرو هستند، اما تحقیقات در مورد گزینه‌های دیگری مانند مدل‌های فضای حالت (مامبا)، ترکیبی از متخصصان و معماری‌های جدید ادامه دارد. این حوزه به سرعت در حال تکامل است و رویکردهای ترکیبی که توجه را با سایر مکانیسم‌ها ترکیب می‌کنند، ممکن است نسل بعدی مدل‌ها را شکل دهند.

حکم

وقتی وظیفه شما شامل درک روابط مکانی در تصاویر یا ویدیو است، به خصوص وقتی مجموعه داده‌های بزرگی دارید و به محلی‌سازی دقیق نیاز دارید، توجه بینایی را انتخاب کنید. وقتی با داده‌های متنی متوالی کار می‌کنید که نیاز به درک زمینه، تولید یا ترجمه دارند، توجه NLP را انتخاب کنید. برای پروژه‌های چندوجهی، ترکیب هر دو از طریق توجه متقابل اغلب بهترین نتایج را به همراه دارد.

مقایسه‌های مرتبط

LLM های مبتنی بر ابزار در مقابل LLM های مستقل

LLM های مبتنی بر ابزار، مدل‌های زبانی مستقل را با اتصال آنها به APIهای خارجی، ماشین‌حساب‌ها و پایگاه‌های داده گسترش می‌دهند و بازیابی اطلاعات و اجرای وظایف را در زمان واقعی امکان‌پذیر می‌سازند. LLM های مستقل صرفاً به پارامترهای آموزش‌دیده خود متکی هستند و آنها را مستقل اما محدود به دانش حاصل از داده‌های آموزشی می‌کنند.

LLM های متن باز در مقابل API های اختصاصی LLM

LLM های متن باز، مدل‌های هوش مصنوعی قابل تنظیم و خود-میزبان با دسترسی کامل به کد ارائه می‌دهند، در حالی که API های اختصاصی LLM، خدمات مدیریت شده و بهبود یافته را از طریق نقاط پایانی مبتنی بر ابر با قیمت گذاری مبتنی بر میزان استفاده ارائه می‌دهند.

RAG (تولید افزوده بازیابی) در مقابل LLM های تنظیم دقیق

RAG و LLM های تنظیم‌شده دقیق، هر دو کیفیت خروجی هوش مصنوعی را بهبود می‌بخشند، اما به روش‌های اساساً متفاوتی عمل می‌کنند. RAG اطلاعات خارجی را در زمان پرس‌وجو دریافت می‌کند، در حالی که تنظیم دقیق، دانش جدید را مستقیماً در وزن‌های مدل قرار می‌دهد. انتخاب بین آنها بستگی به این دارد که داده‌های شما چند وقت یکبار تغییر می‌کنند و به چه نوع دقتی نیاز دارید.

RAG با متن بصری در مقابل RAG با متن فقط متنی

RAG با زمینه بصری، مدل‌های زبانی را با بازیابی تصاویر، نمودارها و دیاگرام‌ها در کنار متن غنی می‌کند، در حالی که RAG فقط متنی صرفاً به متون نوشتاری متکی است. RAG بصری در وظایف چندوجهی مانند درک اسناد و پاسخ به سؤالات بصری برتری دارد، در حالی که RAG فقط متنی ساده‌تر، سریع‌تر و ارزان‌تر برای استقرار باقی می‌ماند.

RAG چندوجهی در مقابل RAG فقط متنی

RAG چندوجهی متن، تصاویر، صدا و ویدیو را برای بازیابی غنی‌تر با هم پردازش می‌کند، در حالی که RAG فقط متنی منحصراً بر محتوای نوشتاری تمرکز دارد. انتخاب بستگی به این دارد که آیا داده‌ها و موارد استفاده شما فراتر از اسناد متنی ساده است یا خیر.