مدلهای Vision Transformers در مقابل مدلهای State Space Vision
تبدیلکنندههای بینایی و مدلهای بینایی فضای حالت، دو رویکرد اساساً متفاوت به درک بصری را نشان میدهند. در حالی که تبدیلکنندههای بینایی برای مرتبط کردن تمام تکههای تصویر به توجه کلی متکی هستند، مدلهای بینایی فضای حالت، اطلاعات را به صورت متوالی با حافظه ساختاریافته پردازش میکنند و جایگزین کارآمدتری برای استدلال مکانی دوربرد و ورودیهای با وضوح بالا ارائه میدهند.
برجستهها
تبدیلکنندههای بینایی از خودتوجهی کامل استفاده میکنند، در حالی که مدلهای فضای حالت به بازگشت ساختاریافته متکی هستند.
مدلهای چشمانداز فضای حالت به صورت خطی مقیاسپذیر هستند و این امر آنها را برای ورودیهای بزرگ کارآمدتر میکند.
ViTها اغلب در سناریوهای آموزشی معیار در مقیاس بزرگ عملکرد بهتری دارند
SSMها به طور فزایندهای برای تصاویر و وظایف ویدیویی با وضوح بالا جذاب هستند.
ترانسفورماتورهای بینایی (ViT) چیست؟
مدلهای بینایی که تصاویر را به تکههایی تقسیم میکنند و از توجه به خود برای یادگیری روابط کلی در تمام مناطق استفاده میکنند.
به عنوان اقتباسی از معماری ترانسفورماتور برای تصاویر معرفی شد
تصاویر را به تکههایی با اندازه ثابت تقسیم میکند که مانند توکنها با آنها رفتار میشود
از خود-توجهی برای مدلسازی روابط بین همه تکهها به طور همزمان استفاده میکند.
معمولاً برای عملکرد خوب به دادههای پیشآموزش در مقیاس بزرگ نیاز دارد
هزینه محاسباتی با تعداد پچها به صورت درجه دوم افزایش مییابد
مدلهای چشمانداز فضای حالت (SSM) چیست؟
معماریهای بینایی که از انتقال حالتهای ساختاریافته برای پردازش کارآمد دادههای بصری به شیوهای ترتیبی یا مبتنی بر اسکن استفاده میکنند.
الهام گرفته از سیستمهای فضای حالت کلاسیک در پردازش سیگنال
به جای توجه کامل، نشانههای بصری را از طریق تکرار ساختاریافته پردازش میکند.
یک حالت پنهان فشرده را برای ثبت وابستگیهای دوربرد حفظ میکند.
برای ورودیهای با وضوح بالا یا توالی طولانی کارآمدتر است
هزینه محاسباتی تقریباً به صورت خطی با اندازه ورودی تغییر میکند
جدول مقایسه
ویژگی
ترانسفورماتورهای بینایی (ViT)
مدلهای چشمانداز فضای حالت (SSM)
مکانیسم اصلی
توجه به خود در تمام جنبهها
انتقال حالت ساختاریافته با تکرار
پیچیدگی محاسباتی
درجه دوم با اندازه ورودی
خطی با اندازه ورودی
میزان استفاده از حافظه
به دلیل ماتریسهای توجه بالا است
به دلیل نمایش فشرده حالت، کمتر است
مدیریت وابستگیهای بلندمدت
قوی اما گران
کارآمد و مقیاسپذیر
الزامات دادههای آموزشی
مجموعه دادههای بزرگ معمولاً مورد نیاز هستند
در برخی موارد میتواند در رژیمهای با دادههای کمتر عملکرد بهتری داشته باشد
موازیسازی
قابلیت موازیسازی بالا در طول آموزش
پیادهسازیهای ترتیبیتر اما بهینهتری وجود دارد
پردازش تصویر با وضوح بالا
سریع پرهزینه میشود
کارآمدتر و مقیاسپذیرتر
تفسیرپذیری
نقشههای توجه، قابلیت تفسیرپذیری را فراهم میکنند
تفسیر حالات درونی دشوارتر است
مقایسه دقیق
سبک محاسبات هسته
تبدیلکنندههای بینایی، تصاویر را با شکستن آنها به تکهها و اجازه دادن به هر تکه برای رسیدگی به هر تکه دیگر، پردازش میکنند. این کار یک مدل تعامل سراسری از همان لایه اول ایجاد میکند. در عوض، مدلهای بینایی فضای حالت، اطلاعات را از طریق یک حالت پنهان ساختاریافته که گام به گام تکامل مییابد، عبور میدهند و وابستگیها را بدون مقایسههای زوجی صریح ثبت میکنند.
مقیاسپذیری و کارایی
با افزایش وضوح تصویر، ViTها معمولاً گران میشوند، زیرا با افزایش توکنها، توجه به مقیاسپذیری ضعیف میشود. در مقابل، مدلهای فضای حالت طوری طراحی شدهاند که مقیاسپذیری بهتری داشته باشند و این امر آنها را برای تصاویر با وضوح فوقالعاده بالا یا توالیهای ویدیویی طولانی که در آنها کارایی اهمیت دارد، جذاب میکند.
رفتار یادگیری و نیازهای دادهای
مبدلهای بینایی عموماً برای باز کردن کامل عملکرد خود به مجموعه دادههای بزرگی نیاز دارند زیرا فاقد بایاسهای القایی داخلی قوی هستند. مدلهای بینایی فضای حالت، فرضیات ساختاری قویتری در مورد دینامیک توالی ارائه میدهند که میتواند به آنها کمک کند تا در تنظیمات خاص، به ویژه هنگامی که دادهها محدود هستند، به طور مؤثرتری یاد بگیرند.
عملکرد در درک فضایی
مدلهای فضای حالت در ثبت روابط پیچیده سراسری برتری دارند، زیرا هر قطعه میتواند مستقیماً با سایر قطعات تعامل داشته باشد. مدلهای فضای حالت به حافظه فشرده متکی هستند که گاهی اوقات میتواند استدلال سراسری دقیق را محدود کند، اما اغلب به دلیل انتشار کارآمد اطلاعات در برد طولانی، عملکرد شگفتانگیزی دارند.
استفاده در سیستمهای دنیای واقعی
به دلیل بلوغ و ابزار، تبدیلکنندههای بینایی بر بسیاری از معیارها و سیستمهای تولید فعلی تسلط دارند. با این حال، مدلهای بینایی فضای حالت در دستگاههای لبه، پردازش ویدئو و کاربردهای با وضوح بالا که در آنها کارایی و سرعت محدودیتهای حیاتی هستند، مورد توجه قرار گرفتهاند.
مزایا و معایب
ترانسفورماتورهای بینایی
مزایا
+پتانسیل دقت بالا
+توجه جهانی قوی
+اکوسیستم بالغ
+برای بنچمارک عالیه
مصرف شده
−هزینه محاسباتی بالا
−حافظه فشرده
−به دادههای حجیم نیاز دارد
−مقیاسبندی ضعیف
مدلهای چشمانداز فضای ایالتی
مزایا
+مقیاسبندی کارآمد
+استفاده کمتر از حافظه
+برای توالیهای طولانی خوب است
+سازگار با سختافزار
مصرف شده
−کمتر بالغ
−بهینهسازی سختتر
−تفسیرپذیری ضعیفتر
−ابزار مرحله تحقیق
تصورات نادرست رایج
افسانه
مدلهای چشمانداز فضایی ایالتی نمیتوانند وابستگیهای بلندمدت را به خوبی نشان دهند.
واقعیت
آنها به طور خاص برای مدلسازی وابستگیهای دوربرد از طریق تکامل ساختاریافته حالت طراحی شدهاند. اگرچه آنها از توجه جفتی صریح استفاده نمیکنند، اما حالت داخلی آنها همچنان میتواند اطلاعات را به طور مؤثر در توالیهای بسیار طولانی حمل کند.
افسانه
Vision Transformers همیشه بهتر از معماریهای جدیدتر هستند.
واقعیت
مدلهای ViT در بسیاری از معیارها عملکرد بسیار خوبی دارند، اما همیشه کارآمدترین انتخاب نیستند. در محیطهای با وضوح بالا یا با محدودیت منابع، مدلهای جایگزین مانند SSMها میتوانند از نظر عملی از آنها پیشی بگیرند.
افسانه
مدلهای فضای حالت، صرفاً ترانسفورماتورهای سادهشدهای هستند.
واقعیت
آنها اساساً متفاوت هستند. به جای ترکیب توکن مبتنی بر توجه، آنها به سیستمهای دینامیکی پیوسته یا گسسته برای تکامل نمایشها در طول زمان متکی هستند.
افسانه
ترنسفورمرها تصاویر را مانند انسانها درک میکنند.
واقعیت
هم ViTها و هم SSMها الگوهای آماری را به جای ادراک شبه انسانی یاد میگیرند. «درک» آنها مبتنی بر همبستگیهای آموختهشده است، نه آگاهی معنایی واقعی.
سوالات متداول
چرا Vision Transformers در بینایی کامپیوتر اینقدر محبوب هستند؟
آنها با اعمال مستقیم خود-توجهی به تکههای تصویر، که امکان استدلال کلی قدرتمند را فراهم میکند، به عملکرد قوی دست یافتند. آنها با ترکیب آموزش در مقیاس بزرگ، به سرعت از بسیاری از مدلهای سنتی مبتنی بر کانولوشن در دقت پیشی گرفتند.
چه چیزی مدلهای چشمانداز فضای ایالتی را کارآمدتر میکند؟
آنها از محاسبه تمام روابط جفتی بین توکنهای تصویر اجتناب میکنند. در عوض، آنها یک حالت داخلی فشرده را حفظ میکنند که با افزایش اندازه ورودی، نیازهای حافظه و محاسبات را به میزان قابل توجهی کاهش میدهد.
آیا مدلهای فضای حالت جایگزین ترانسفورماتورهای بینایی میشوند؟
در حال حاضر خیر. آنها بیشتر یک جایگزین هستند تا یک جایگزین. ViT ها هنوز در تحقیقات و صنعت غالب هستند، در حالی که SSM ها برای کاربردهای حیاتی از نظر کارایی در حال بررسی هستند.
کدام مدل برای تصاویر با وضوح بالا بهتر است؟
مدلهای بینایی فضای حالت اغلب از این مزیت برخوردارند که محاسبات آنها با افزایش وضوح، مقیاسپذیری کارآمدتری دارد. با افزایش اندازه تصویر، مبدلهای بینایی میتوانند گران شوند.
آیا Vision Transformers برای آموزش به دادههای بیشتری نیاز دارد؟
بله، معمولاً وقتی روی مجموعه دادههای بزرگ آموزش میبینند، بهترین عملکرد را دارند. بدون دادههای کافی، ممکن است در مقایسه با مدلهایی که دارای بایاسهای ساختاری داخلی قویتری هستند، با مشکل مواجه شوند.
آیا مدلهای فضای حالت میتوانند با دقت ترانسفورماتور مطابقت داشته باشند؟
در برخی از وظایف، آنها میتوانند عملکرد نزدیک یا حتی برابری داشته باشند، به خصوص در تنظیمات ساختاریافته یا با توالی طولانی. با این حال، ترانسفورماتورها هنوز هم در بسیاری از معیارهای بینایی در مقیاس بزرگ، برتری دارند.
کدام معماری برای پردازش تصویر بهتر است؟
مدلهای فضای حالت اغلب به دلیل ماهیت ترتیبی و هزینه حافظه کمتر، برای ویدیو کارآمدتر هستند. با این حال، Vision Transformers همچنان میتواند با محاسبات کافی به نتایج قوی دست یابد.
آیا این مدلها در آینده با هم استفاده خواهند شد؟
بسیار محتمل است. رویکردهای ترکیبی که مکانیسمهای توجه را با دینامیک فضای حالت ترکیب میکنند، در حال حاضر برای ایجاد تعادل بین دقت و کارایی مورد بررسی قرار گرفتهاند.
حکم
به دلیل توانایی استدلال جهانی قوی و اکوسیستم بالغ، مبدلهای بینایی همچنان انتخاب غالب برای وظایف بینایی با دقت بالا هستند. با این حال، مدلهای بینایی فضای حالت، زمانی که کارایی، مقیاسپذیری و پردازش توالی طولانی مهمتر از قدرت توجه brute-force هستند، جایگزین قانعکنندهای ارائه میدهند.