یادگیری عمیقشبکههای عصبیبینایی کامپیوتران ال پیهوش مصنوعییادگیری ماشینی
مدلهای ترانسفورماتور در مقابل معماریهای مبتنی بر CNN
مدلهای تبدیلکننده و معماریهای مبتنی بر CNN دو رویکرد غالب در یادگیری عمیق هستند که هر کدام در حوزههای مختلفی برتری دارند. تبدیلکنندهها برای ثبت روابط کلی به خود-توجهی متکی هستند، در حالی که CNNها از فیلترهای کانولوشنی برای تشخیص کارآمد الگوهای مکانی محلی استفاده میکنند.
برجستهها
ترنسفورمرها (Transformers) زمینه کلی را از لایه اول دریافت میکنند، در حالی که CNNها از طریق سلسله مراتب ویژگیهای محلی به سراسری، درک را افزایش میدهند.
CNNها برای وظایف بینایی با وضوح بالا در سختافزار لبه، از نظر پارامتر کارآمدتر و سریعتر باقی میمانند.
ترانسفورماتورها پس از پیشآموزش در مقیاس بزرگ، بر وظایف زبانی تسلط دارند و در بینایی به طور فزایندهای رقابتی عمل میکنند.
معماریهای ترکیبی که لایههای کانولوشن را با توجه ترکیب میکنند، اکنون در مدلهای پیشرفته رایج هستند.
مدلهای ترانسفورماتور چیست؟
معماریهای یادگیری عمیق با استفاده از مکانیسمهای خود-توجهی برای پردازش دادههای ترتیبی و زمینهای در روشهای متنوع.
در مقاله سال ۲۰۱۷ با عنوان «توجه، تمام چیزی است که نیاز دارید» توسط واسوانی و همکارانش در Google Brain معرفی شد.
مکانیسم اصلی، خود-توجهی است که روابط بین تمام توکنها را در یک توالی به طور همزمان محاسبه میکند.
مدلهای زبانی بزرگی مانند GPT-4، BERT و Llama و همچنین مبدلهای بینایی مانند ViT را پشتیبانی میکند.
به طور موثر با مجموعه دادههای عظیم و تعداد پارامترها، که اغلب شامل میلیاردها پارامتر هستند، مقیاسپذیر است.
به منابع محاسباتی قابل توجهی برای آموزش نیاز دارد، که معمولاً از GPUها یا TPUها به صورت موازی استفاده میکند.
معماریهای مبتنی بر CNN چیست؟
شبکههای عصبی که فیلترهای کانولوشن را در دادههای ورودی اعمال میکنند تا ویژگیهای مکانی سلسله مراتبی را برای تشخیص الگو استخراج کنند.
با الهام از قشر بینایی، که مفاهیم اولیه آن به نئوکاگنیترون فوکوشیما در سال ۱۹۸۰ برمیگردد.
LeNet-5 (1998) توسط یان لکان اولین CNN بود که با موفقیت برای تشخیص ارقام دستنویس به کار گرفته شد.
AlexNet (2012) تسلط CNNها را در ImageNet نشان داد و انقلاب یادگیری عمیق مدرن را جرقه زد.
از اشتراک وزن و اتصال محلی استفاده میکند و آنها را در مقایسه با شبکههای کاملاً متصل، از نظر پارامتر کارآمد میکند.
همچنان ستون فقرات استاندارد بسیاری از وظایف بینایی در زمان واقعی مانند تشخیص اشیا و تصویربرداری پزشکی است.
جدول مقایسه
ویژگی
مدلهای ترانسفورماتور
معماریهای مبتنی بر CNN
مکانیسم اصلی
توجه به خود در تمام موقعیتها
فیلترهای کانولوشن روی نواحی محلی
سال معرفی
۲۰۱۷
دهه ۱۹۸۰ (نئوکاگنیترون)، ۱۹۹۸ (لینت-۵)
میدان پذیرا
سراسری از لایه اول
محلی، با عمق در حال گسترش
کارایی داده
برای درخشش به مجموعه دادههای بزرگی نیاز دارد
با دادههای متوسط خوب عمل میکند
هزینه محاسباتی
پیچیدگی درجه دوم با طول دنباله
خطی با اندازه ورودی
دامنههای اصلی
پردازش زبان طبیعی، بینایی، هوش مصنوعی چندوجهی
بینایی کامپیوتر، تصویربرداری پزشکی
تفسیرپذیری
نقشههای توجه، بینشی ارائه میدهند
نقشههای ویژگی، فیلترهای آموختهشده را تجسم میکنند
بایاس القایی
حداقل فرضیات از پیش تعیینشده
تغییرناپذیری قوی محلی و انتقالی
مقیاسپذیری
به طور قابل توجهی با پارامترها مقیاس بندی می شود
کاهش بازده فراتر از اندازه مشخص
مقایسه دقیق
فلسفه معماری
ترانسفورماتورها فرضیات محلی بودن ترتیبی یا مکانی که در معماریهای قبلی گنجانده شده بود را کنار میگذارند و در عوض به مدل اجازه میدهند تا از طریق توجه، روابط مهم را یاد بگیرد. CNNها رویکرد مخالف را اتخاذ میکنند و محلی بودن را با فیلترهای کشویی که به طور طبیعی الگوهای نزدیک را ثبت میکنند، در طراحی کدگذاری میکنند. این تقسیمبندی فلسفی همه چیز را در پاییندست شکل میدهد، از میزان دادههای آموزشی که هر مدل به آن نیاز دارد تا میزان سهولت تعمیم آنها به وظایف جدید.
عملکرد در دامنههای مختلف
در پردازش زبان طبیعی، مبدلها اساساً جایگزین رویکردهای قبلی شدهاند و نتایج پیشرفتهای را در معیارهایی مانند GLUE و SuperGLUE به دست آوردهاند. CNNها هنوز بر بسیاری از خطوط لوله بینایی کامپیوتر تسلط دارند، به خصوص زمانی که سرعت استنتاج اهمیت دارد، اگرچه مبدلهای بینایی (ViT) شکاف دقت را پر کردهاند. برای کارهایی که شامل تصاویر و متن هستند، مدلهای ترکیبی و مبدلهای خالص به طور فزایندهای رایج هستند.
الزامات محاسباتی
خود-توجهی به صورت درجه دوم با طول توالی تغییر میکند، به این معنی که یک ترانسفورماتور که یک ورودی ۴K توکن را پردازش میکند، تقریباً ۱۶ برابر کاری که یک ترانسفورماتور که ۱K توکن را مدیریت میکند، انجام میدهد. CNNها به صورت خطی با ابعاد ورودی تغییر میکنند و این باعث میشود که آنها برای تصاویر با وضوح بالا یا ویدیوی بلادرنگ بسیار کارآمدتر باشند. از طرف دیگر، ترانسفورماتورها به زیبایی در GPUها موازی میشوند، در حالی که CNNهای بسیار عمیق میتوانند در طول انتشار معکوس به گلوگاههای حافظه برخورد کنند.
دینامیک دادهها و آموزش
ترانسفورماتورها به شدت تشنه داده هستند و اغلب قبل از اینکه انعطافپذیریشان به نتیجه برسد، به میلیونها مثال نیاز دارند، اگرچه مدلهای از پیش آموزشدیده مانند BERT از طریق یادگیری انتقالی این معادله را تغییر دادهاند. CNNها میتوانند به لطف بایاسهای استقرایی داخلی خود، با مجموعه دادههای کوچکتر به نتایج قوی دست یابند، به همین دلیل است که در زمینههایی مانند تصویربرداری پزشکی که دادههای برچسبگذاریشده کمیاب هستند، همچنان محبوب هستند. هر دو از پیشآموزش بسیار سود میبرند، اما مسیر رسیدن به یک مدل کارآمد با CNNها در رژیمهای کم داده کوتاهتر است.
استقرار عملی
برای دستگاههای لبهای و برنامههای کاربردی موبایل، CNNها هنوز هم از نظر کارایی برتری دارند، با معماریهایی مانند MobileNet و EfficientNet که برای استنتاج کممصرف بهینه شدهاند. ترانسفورماتورها از طریق تکنیکهایی مانند تقطیر دانش، کوانتیزاسیون و انواع توجه کارآمد مانند Linformer و Performer در حال جبران عقبماندگی هستند. در سیستمهای مبتنی بر ابر که دقت از اهمیت بالایی برخوردار است، ترانسفورماتورها اغلب هزینه محاسباتی بالاتر خود را توجیه میکنند.
مزایا و معایب
مدلهای ترانسفورماتور
مزایا
+وابستگیهای بلندمدت را ثبت میکند
+آموزش با قابلیت موازیسازی بالا
+یادگیری انتقالی عالی
+انعطافپذیری چندوجهی
مصرف شده
−هزینه محاسباتی درجه دوم
−آموزش دادهمحور
−استفاده زیاد از حافظه
−تفسیرش سختتره
معماریهای مبتنی بر CNN
مزایا
+از نظر محاسباتی کارآمد است
+سوگیریهای استقرایی قوی
+با داده کمتری کار میکند
+ابزارهای بهینهسازی پیشرفته
مصرف شده
−زمینه جهانی محدود
−افزایش مقیاس دشوارتر است
−انعطافپذیری کمتر در دامنههای مختلف
−وضوح ورودی ثابت
تصورات نادرست رایج
افسانه
ترانسفورماتورها به طور کامل جایگزین CNNها در بینایی کامپیوتر شدهاند.
واقعیت
شبکههای عصبی کانولوشن (CNN) همچنان به طور گسترده در سیستمهای بینایی تولید، به ویژه برای برنامههای کاربردی بلادرنگ و موبایل، مورد استفاده قرار میگیرند. ترانسفورماتورها در معیارها با دقت CNN مطابقت داشته یا از آن فراتر رفتهاند، اما بدهبستانهای کارایی، مدلهای کانولوشن را در بسیاری از سناریوهای استقرار مرتبط نگه میدارند.
افسانه
CNNها نمیتوانند وابستگیهای دوربرد را ثبت کنند.
واقعیت
در حالی که لایههای کانولوشنی منفرد دارای میدانهای دریافت محلی هستند، روی هم قرار دادن لایههای زیاد و استفاده از کانولوشنهای متسع، میدان دریافت مؤثر را به طور قابل توجهی گسترش میدهد. CNNهای مدرن میتوانند روابط را در نواحی بزرگ تصویر مدلسازی کنند، اگرچه مبدلها این کار را مستقیمتر میکنند.
افسانه
ترانسفورماتورها بایاس القایی ندارند.
واقعیت
ترانسفورماتورها نسبت به CNNها بایاسهای القایی ضعیفتری دارند، اما عاری از بایاس نیستند. کدگذاریهای موقعیتی، طرحهای توکنسازی و انتخابهای معماری مانند پوشش سببی، همگی فرضیاتی در مورد ساختار دادهها را به مدل تزریق میکنند.
افسانه
مدلهای ترانسفورماتور بزرگتر همیشه بهتر هستند.
واقعیت
قوانین مقیاسبندی نشان میدهند که عملکرد با افزایش اندازه بهبود مییابد، اما بازده کاهش مییابد و مدلهای کوچکتر اغلب پس از تنظیم دقیق، در وظایف خاص از مدلهای بزرگتر پیشی میگیرند. هزینههای محاسباتی، تأخیر و محدودیتهای استقرار، اغلب مدلهای کوچکتر را به انتخاب عملی تبدیل میکنند.
افسانه
CNNها فناوری منسوخشدهای هستند.
واقعیت
CNNها با نوآوریهایی مانند کانولوشنهای جداشدنی عمقی، جستجوی معماری عصبی و طرحهای مدرنی مانند ConvNeXt که عملکرد ترانسفورماتور را رقیب میکنند، همچنان در حال تکامل هستند. آنها در بسیاری از سیستمهای پیشرفته همچنان پایه و اساس هستند.
سوالات متداول
تفاوت اصلی بین ترانسفورماتورها و CNNها چیست؟
تفاوت اساسی در نحوه پردازش اطلاعات در هر معماری نهفته است. ترانسفورماتورها از خود-توجهی برای مرتبط کردن همزمان هر عنصر در ورودی با هر عنصر دیگر استفاده میکنند و از همان ابتدا زمینه کلی را ثبت میکنند. CNNها فیلترهای آموختهشده را در سراسر تکههای محلی اعمال میکنند و درک الگوهای بزرگتر را تنها با جریان دادهها از لایههای عمیقتر ایجاد میکنند.
آیا ترانسفورماتورها برای طبقهبندی تصویر بهتر از CNNها هستند؟
در معیارهای بزرگی مانند ImageNet، مبدلهای بینایی میتوانند با CNNهای برتر برابری کنند یا از آنها پیشی بگیرند، اما تنها پس از پیشآموزش روی صدها میلیون تصویر. برای مجموعه دادههای کوچکتر یا محاسبات محدود، CNNهایی مانند ResNet و EfficientNet اغلب به دلیل فرضیات مفید داخلی خود در مورد ساختار تصویر، عملکرد بهتری دارند.
چرا ترانسفورماتورها برای وظایف NLP ترجیح داده میشوند؟
زبان ذاتاً شامل وابستگیهای بلندمدت است که در آن یک کلمه در اوایل یک پاراگراف میتواند بر معنای بسیاری از جملات بعدی تأثیر بگذارد. خود-توجهی این ارتباطات را مستقیماً مدیریت میکند، در حالی که RNNها و CNNها باید اطلاعات را از طریق لایهها یا گامهای زمانی زیادی منتشر کنند. این دسترسی مستقیم به متن دلیل انقلابی است که مدلهایی مانند GPT و BERT در NLP ایجاد کردند.
آیا میتوان CNNها و ترانسفورماتورها را با هم ترکیب کرد؟
بله، مدلهای ترکیبی به طور فزایندهای محبوب هستند. لایههای کانولوشن میتوانند تصاویر را در پچهای جاسازیشده برای ترانسفورماتورها پیشپردازش کنند، یا مکانیسمهای توجه میتوانند به ستون فقرات CNN اضافه شوند تا زمینه کلی را ثبت کنند. مدلهایی مانند DETR برای تشخیص اشیا و ConvNeXt نشان میدهند که ترکیب هر دو رویکرد اغلب بهترین نتایج را به همراه دارد.
کدام معماری برای استنتاج سریعتر است؟
شبکههای عصبی کانولوشن (CNN) عموماً برای استنتاج سریعتر هستند، به خصوص در دستگاههای لبهای و پردازندههای گرافیکی (GPU) که برای عملیات کانولوشن بهینه شدهاند. ترانسفورماتورها به دلیل محاسبات توجه، به حافظه و محاسبات بیشتری در هر مرحله استنتاج نیاز دارند، اگرچه پیادهسازیهای بهینه و انواع توجه کارآمد، این شکاف را کاهش میدهند.
آیا ترانسفورماتورها به دادههای آموزشی بیشتری نسبت به CNNها نیاز دارند؟
معمولاً بله. ترانسفورماتورها فرضیات داخلی کمتری در مورد ساختار دادهها دارند، بنابراین برای یادگیری الگوهایی که CNNها تقریباً به طور خودکار انتخاب میکنند، به مثالهای بیشتری نیاز دارند. به همین دلیل است که یادگیری انتقالی از ترانسفورماتورهای از پیش آموزش دیده بسیار مهم شده است، و با بهرهگیری از دانش حاصل از پیکرههای عظیم از پیش آموزش دیده، گرسنگی دادههای آنها را جبران میکند.
انواع ترانسفورماتور کارآمد چیست؟
محققان انواع مختلفی از الگوریتمها را برای کاهش هزینههای محاسباتی ترانسفورماتور توسعه دادهاند، از جمله Linformer (توجه خطی)، Performer (توجه به ویژگیهای تصادفی)، Longformer (توجه به پنجره کشویی) و Reformer (هشینگ حساس به محل). این رویکردها مقداری از دقت را با افزایش چشمگیر کارایی در توالیهای طولانی معاوضه میکنند.
از کدام معماری باید برای تصویربرداری پزشکی استفاده کنم؟
به دلیل محدودیت مجموعه دادههای برچسبگذاری شده و نیاز به نقشههای ویژگی قابل تفسیر، شبکههای عصبی کانولوشن (CNN) همچنان انتخاب غالب برای تصویربرداری پزشکی هستند. با این حال، ترانسفورماتورهای بینایی و مدلهای ترکیبی، به ویژه برای کارهایی مانند تقسیمبندی تومور که در آن ثبت بافت بافت در فواصل دور اهمیت دارد، در حال افزایش محبوبیت هستند. بسیاری از مقالات اخیر نتایج رقابتی با رویکردهای مبتنی بر ترانسفورماتور را گزارش میدهند.
اگر ترانسفورماتورها برای متن طراحی شدهاند، چگونه تصاویر را مدیریت میکنند؟
مبدلهای بینایی، تصاویر را به تکههایی با اندازه ثابت (معمولاً ۱۶x۱۶ پیکسل) تقسیم میکنند، هر تکه را به یک بردار تبدیل میکنند و با آنها مانند توکنهای یک جمله رفتار میکنند. یک جاسازی موقعیتی آموختهشده، اطلاعات مکانی را حفظ میکند و رمزگذار مبدل استاندارد، توالی را پردازش میکند. این تطبیق ساده به طرز چشمگیری مؤثر بوده است.
آیا ترانسفورماتورها در نهایت به طور کامل جایگزین CNNها خواهند شد؟
احتمالاً در کوتاهمدت نه. هر معماری نقاط قوتی دارد که برای محدودیتهای مختلف مناسب هستند و روند تحقیقات به سمت طرحهای ترکیبی است که کارایی کانولوشن را با انعطافپذیری توجه ترکیب میکنند. آینده احتمالاً متعلق به مدلهایی است که هوشمندانه هر دو رویکرد را بر اساس وظیفه و الزامات استقرار ترکیب میکنند.
حکم
وقتی به استنتاج کارآمد نیاز دارید، با دادههای آموزشی محدود کار میکنید یا در محیطهای با منابع محدود مانند دستگاههای تلفن همراه مستقر میشوید، معماریهای مبتنی بر CNN را انتخاب کنید. هنگام کار با دادههای ترتیبی، وظایف چندوجهی یا سناریوهایی که ثبت وابستگیهای دوربرد و مقیاسبندی با محاسبات، افزایش دقت معناداری را ارائه میدهد، به سراغ مدلهای ترانسفورماتور بروید.