Comparthing Logo
یادگیری عمیقشبکه‌های عصبیبینایی کامپیوتران ال پیهوش مصنوعییادگیری ماشینی

مدل‌های ترانسفورماتور در مقابل معماری‌های مبتنی بر CNN

مدل‌های تبدیل‌کننده و معماری‌های مبتنی بر CNN دو رویکرد غالب در یادگیری عمیق هستند که هر کدام در حوزه‌های مختلفی برتری دارند. تبدیل‌کننده‌ها برای ثبت روابط کلی به خود-توجهی متکی هستند، در حالی که CNNها از فیلترهای کانولوشنی برای تشخیص کارآمد الگوهای مکانی محلی استفاده می‌کنند.

برجسته‌ها

  • ترنسفورمرها (Transformers) زمینه کلی را از لایه اول دریافت می‌کنند، در حالی که CNNها از طریق سلسله مراتب ویژگی‌های محلی به سراسری، درک را افزایش می‌دهند.
  • CNNها برای وظایف بینایی با وضوح بالا در سخت‌افزار لبه، از نظر پارامتر کارآمدتر و سریع‌تر باقی می‌مانند.
  • ترانسفورماتورها پس از پیش‌آموزش در مقیاس بزرگ، بر وظایف زبانی تسلط دارند و در بینایی به طور فزاینده‌ای رقابتی عمل می‌کنند.
  • معماری‌های ترکیبی که لایه‌های کانولوشن را با توجه ترکیب می‌کنند، اکنون در مدل‌های پیشرفته رایج هستند.

مدل‌های ترانسفورماتور چیست؟

معماری‌های یادگیری عمیق با استفاده از مکانیسم‌های خود-توجهی برای پردازش داده‌های ترتیبی و زمینه‌ای در روش‌های متنوع.

  • در مقاله سال ۲۰۱۷ با عنوان «توجه، تمام چیزی است که نیاز دارید» توسط واسوانی و همکارانش در Google Brain معرفی شد.
  • مکانیسم اصلی، خود-توجهی است که روابط بین تمام توکن‌ها را در یک توالی به طور همزمان محاسبه می‌کند.
  • مدل‌های زبانی بزرگی مانند GPT-4، BERT و Llama و همچنین مبدل‌های بینایی مانند ViT را پشتیبانی می‌کند.
  • به طور موثر با مجموعه داده‌های عظیم و تعداد پارامترها، که اغلب شامل میلیاردها پارامتر هستند، مقیاس‌پذیر است.
  • به منابع محاسباتی قابل توجهی برای آموزش نیاز دارد، که معمولاً از GPUها یا TPUها به صورت موازی استفاده می‌کند.

معماری‌های مبتنی بر CNN چیست؟

شبکه‌های عصبی که فیلترهای کانولوشن را در داده‌های ورودی اعمال می‌کنند تا ویژگی‌های مکانی سلسله مراتبی را برای تشخیص الگو استخراج کنند.

  • با الهام از قشر بینایی، که مفاهیم اولیه آن به نئوکاگنیترون فوکوشیما در سال ۱۹۸۰ برمی‌گردد.
  • LeNet-5 (1998) توسط یان لکان اولین CNN بود که با موفقیت برای تشخیص ارقام دست‌نویس به کار گرفته شد.
  • AlexNet (2012) تسلط CNNها را در ImageNet نشان داد و انقلاب یادگیری عمیق مدرن را جرقه زد.
  • از اشتراک وزن و اتصال محلی استفاده می‌کند و آنها را در مقایسه با شبکه‌های کاملاً متصل، از نظر پارامتر کارآمد می‌کند.
  • همچنان ستون فقرات استاندارد بسیاری از وظایف بینایی در زمان واقعی مانند تشخیص اشیا و تصویربرداری پزشکی است.

جدول مقایسه

ویژگی مدل‌های ترانسفورماتور معماری‌های مبتنی بر CNN
مکانیسم اصلی توجه به خود در تمام موقعیت‌ها فیلترهای کانولوشن روی نواحی محلی
سال معرفی ۲۰۱۷ دهه ۱۹۸۰ (نئوکاگنیترون)، ۱۹۹۸ (لی‌نت-۵)
میدان پذیرا سراسری از لایه اول محلی، با عمق در حال گسترش
کارایی داده برای درخشش به مجموعه داده‌های بزرگی نیاز دارد با داده‌های متوسط خوب عمل می‌کند
هزینه محاسباتی پیچیدگی درجه دوم با طول دنباله خطی با اندازه ورودی
دامنه‌های اصلی پردازش زبان طبیعی، بینایی، هوش مصنوعی چندوجهی بینایی کامپیوتر، تصویربرداری پزشکی
تفسیرپذیری نقشه‌های توجه، بینشی ارائه می‌دهند نقشه‌های ویژگی، فیلترهای آموخته‌شده را تجسم می‌کنند
بایاس القایی حداقل فرضیات از پیش تعیین‌شده تغییرناپذیری قوی محلی و انتقالی
مقیاس‌پذیری به طور قابل توجهی با پارامترها مقیاس بندی می شود کاهش بازده فراتر از اندازه مشخص

مقایسه دقیق

فلسفه معماری

ترانسفورماتورها فرضیات محلی بودن ترتیبی یا مکانی که در معماری‌های قبلی گنجانده شده بود را کنار می‌گذارند و در عوض به مدل اجازه می‌دهند تا از طریق توجه، روابط مهم را یاد بگیرد. CNNها رویکرد مخالف را اتخاذ می‌کنند و محلی بودن را با فیلترهای کشویی که به طور طبیعی الگوهای نزدیک را ثبت می‌کنند، در طراحی کدگذاری می‌کنند. این تقسیم‌بندی فلسفی همه چیز را در پایین‌دست شکل می‌دهد، از میزان داده‌های آموزشی که هر مدل به آن نیاز دارد تا میزان سهولت تعمیم آنها به وظایف جدید.

عملکرد در دامنه‌های مختلف

در پردازش زبان طبیعی، مبدل‌ها اساساً جایگزین رویکردهای قبلی شده‌اند و نتایج پیشرفته‌ای را در معیارهایی مانند GLUE و SuperGLUE به دست آورده‌اند. CNNها هنوز بر بسیاری از خطوط لوله بینایی کامپیوتر تسلط دارند، به خصوص زمانی که سرعت استنتاج اهمیت دارد، اگرچه مبدل‌های بینایی (ViT) شکاف دقت را پر کرده‌اند. برای کارهایی که شامل تصاویر و متن هستند، مدل‌های ترکیبی و مبدل‌های خالص به طور فزاینده‌ای رایج هستند.

الزامات محاسباتی

خود-توجهی به صورت درجه دوم با طول توالی تغییر می‌کند، به این معنی که یک ترانسفورماتور که یک ورودی ۴K توکن را پردازش می‌کند، تقریباً ۱۶ برابر کاری که یک ترانسفورماتور که ۱K توکن را مدیریت می‌کند، انجام می‌دهد. CNNها به صورت خطی با ابعاد ورودی تغییر می‌کنند و این باعث می‌شود که آنها برای تصاویر با وضوح بالا یا ویدیوی بلادرنگ بسیار کارآمدتر باشند. از طرف دیگر، ترانسفورماتورها به زیبایی در GPUها موازی می‌شوند، در حالی که CNNهای بسیار عمیق می‌توانند در طول انتشار معکوس به گلوگاه‌های حافظه برخورد کنند.

دینامیک داده‌ها و آموزش

ترانسفورماتورها به شدت تشنه داده هستند و اغلب قبل از اینکه انعطاف‌پذیری‌شان به نتیجه برسد، به میلیون‌ها مثال نیاز دارند، اگرچه مدل‌های از پیش آموزش‌دیده مانند BERT از طریق یادگیری انتقالی این معادله را تغییر داده‌اند. CNNها می‌توانند به لطف بایاس‌های استقرایی داخلی خود، با مجموعه داده‌های کوچک‌تر به نتایج قوی دست یابند، به همین دلیل است که در زمینه‌هایی مانند تصویربرداری پزشکی که داده‌های برچسب‌گذاری‌شده کمیاب هستند، همچنان محبوب هستند. هر دو از پیش‌آموزش بسیار سود می‌برند، اما مسیر رسیدن به یک مدل کارآمد با CNNها در رژیم‌های کم داده کوتاه‌تر است.

استقرار عملی

برای دستگاه‌های لبه‌ای و برنامه‌های کاربردی موبایل، CNNها هنوز هم از نظر کارایی برتری دارند، با معماری‌هایی مانند MobileNet و EfficientNet که برای استنتاج کم‌مصرف بهینه شده‌اند. ترانسفورماتورها از طریق تکنیک‌هایی مانند تقطیر دانش، کوانتیزاسیون و انواع توجه کارآمد مانند Linformer و Performer در حال جبران عقب‌ماندگی هستند. در سیستم‌های مبتنی بر ابر که دقت از اهمیت بالایی برخوردار است، ترانسفورماتورها اغلب هزینه محاسباتی بالاتر خود را توجیه می‌کنند.

مزایا و معایب

مدل‌های ترانسفورماتور

مزایا

  • + وابستگی‌های بلندمدت را ثبت می‌کند
  • + آموزش با قابلیت موازی‌سازی بالا
  • + یادگیری انتقالی عالی
  • + انعطاف‌پذیری چندوجهی

مصرف شده

  • هزینه محاسباتی درجه دوم
  • آموزش داده‌محور
  • استفاده زیاد از حافظه
  • تفسیرش سخت‌تره

معماری‌های مبتنی بر CNN

مزایا

  • + از نظر محاسباتی کارآمد است
  • + سوگیری‌های استقرایی قوی
  • + با داده کمتری کار می‌کند
  • + ابزارهای بهینه‌سازی پیشرفته

مصرف شده

  • زمینه جهانی محدود
  • افزایش مقیاس دشوارتر است
  • انعطاف‌پذیری کمتر در دامنه‌های مختلف
  • وضوح ورودی ثابت

تصورات نادرست رایج

افسانه

ترانسفورماتورها به طور کامل جایگزین CNNها در بینایی کامپیوتر شده‌اند.

واقعیت

شبکه‌های عصبی کانولوشن (CNN) همچنان به طور گسترده در سیستم‌های بینایی تولید، به ویژه برای برنامه‌های کاربردی بلادرنگ و موبایل، مورد استفاده قرار می‌گیرند. ترانسفورماتورها در معیارها با دقت CNN مطابقت داشته یا از آن فراتر رفته‌اند، اما بده‌بستان‌های کارایی، مدل‌های کانولوشن را در بسیاری از سناریوهای استقرار مرتبط نگه می‌دارند.

افسانه

CNNها نمی‌توانند وابستگی‌های دوربرد را ثبت کنند.

واقعیت

در حالی که لایه‌های کانولوشنی منفرد دارای میدان‌های دریافت محلی هستند، روی هم قرار دادن لایه‌های زیاد و استفاده از کانولوشن‌های متسع، میدان دریافت مؤثر را به طور قابل توجهی گسترش می‌دهد. CNNهای مدرن می‌توانند روابط را در نواحی بزرگ تصویر مدل‌سازی کنند، اگرچه مبدل‌ها این کار را مستقیم‌تر می‌کنند.

افسانه

ترانسفورماتورها بایاس القایی ندارند.

واقعیت

ترانسفورماتورها نسبت به CNNها بایاس‌های القایی ضعیف‌تری دارند، اما عاری از بایاس نیستند. کدگذاری‌های موقعیتی، طرح‌های توکن‌سازی و انتخاب‌های معماری مانند پوشش سببی، همگی فرضیاتی در مورد ساختار داده‌ها را به مدل تزریق می‌کنند.

افسانه

مدل‌های ترانسفورماتور بزرگتر همیشه بهتر هستند.

واقعیت

قوانین مقیاس‌بندی نشان می‌دهند که عملکرد با افزایش اندازه بهبود می‌یابد، اما بازده کاهش می‌یابد و مدل‌های کوچک‌تر اغلب پس از تنظیم دقیق، در وظایف خاص از مدل‌های بزرگ‌تر پیشی می‌گیرند. هزینه‌های محاسباتی، تأخیر و محدودیت‌های استقرار، اغلب مدل‌های کوچک‌تر را به انتخاب عملی تبدیل می‌کنند.

افسانه

CNNها فناوری منسوخ‌شده‌ای هستند.

واقعیت

CNNها با نوآوری‌هایی مانند کانولوشن‌های جداشدنی عمقی، جستجوی معماری عصبی و طرح‌های مدرنی مانند ConvNeXt که عملکرد ترانسفورماتور را رقیب می‌کنند، همچنان در حال تکامل هستند. آن‌ها در بسیاری از سیستم‌های پیشرفته همچنان پایه و اساس هستند.

سوالات متداول

تفاوت اصلی بین ترانسفورماتورها و CNNها چیست؟
تفاوت اساسی در نحوه پردازش اطلاعات در هر معماری نهفته است. ترانسفورماتورها از خود-توجهی برای مرتبط کردن همزمان هر عنصر در ورودی با هر عنصر دیگر استفاده می‌کنند و از همان ابتدا زمینه کلی را ثبت می‌کنند. CNNها فیلترهای آموخته‌شده را در سراسر تکه‌های محلی اعمال می‌کنند و درک الگوهای بزرگتر را تنها با جریان داده‌ها از لایه‌های عمیق‌تر ایجاد می‌کنند.
آیا ترانسفورماتورها برای طبقه‌بندی تصویر بهتر از CNNها هستند؟
در معیارهای بزرگی مانند ImageNet، مبدل‌های بینایی می‌توانند با CNNهای برتر برابری کنند یا از آنها پیشی بگیرند، اما تنها پس از پیش‌آموزش روی صدها میلیون تصویر. برای مجموعه داده‌های کوچکتر یا محاسبات محدود، CNNهایی مانند ResNet و EfficientNet اغلب به دلیل فرضیات مفید داخلی خود در مورد ساختار تصویر، عملکرد بهتری دارند.
چرا ترانسفورماتورها برای وظایف NLP ترجیح داده می‌شوند؟
زبان ذاتاً شامل وابستگی‌های بلندمدت است که در آن یک کلمه در اوایل یک پاراگراف می‌تواند بر معنای بسیاری از جملات بعدی تأثیر بگذارد. خود-توجهی این ارتباطات را مستقیماً مدیریت می‌کند، در حالی که RNNها و CNNها باید اطلاعات را از طریق لایه‌ها یا گام‌های زمانی زیادی منتشر کنند. این دسترسی مستقیم به متن دلیل انقلابی است که مدل‌هایی مانند GPT و BERT در NLP ایجاد کردند.
آیا می‌توان CNNها و ترانسفورماتورها را با هم ترکیب کرد؟
بله، مدل‌های ترکیبی به طور فزاینده‌ای محبوب هستند. لایه‌های کانولوشن می‌توانند تصاویر را در پچ‌های جاسازی‌شده برای ترانسفورماتورها پیش‌پردازش کنند، یا مکانیسم‌های توجه می‌توانند به ستون فقرات CNN اضافه شوند تا زمینه کلی را ثبت کنند. مدل‌هایی مانند DETR برای تشخیص اشیا و ConvNeXt نشان می‌دهند که ترکیب هر دو رویکرد اغلب بهترین نتایج را به همراه دارد.
کدام معماری برای استنتاج سریع‌تر است؟
شبکه‌های عصبی کانولوشن (CNN) عموماً برای استنتاج سریع‌تر هستند، به خصوص در دستگاه‌های لبه‌ای و پردازنده‌های گرافیکی (GPU) که برای عملیات کانولوشن بهینه شده‌اند. ترانسفورماتورها به دلیل محاسبات توجه، به حافظه و محاسبات بیشتری در هر مرحله استنتاج نیاز دارند، اگرچه پیاده‌سازی‌های بهینه و انواع توجه کارآمد، این شکاف را کاهش می‌دهند.
آیا ترانسفورماتورها به داده‌های آموزشی بیشتری نسبت به CNNها نیاز دارند؟
معمولاً بله. ترانسفورماتورها فرضیات داخلی کمتری در مورد ساختار داده‌ها دارند، بنابراین برای یادگیری الگوهایی که CNNها تقریباً به طور خودکار انتخاب می‌کنند، به مثال‌های بیشتری نیاز دارند. به همین دلیل است که یادگیری انتقالی از ترانسفورماتورهای از پیش آموزش دیده بسیار مهم شده است، و با بهره‌گیری از دانش حاصل از پیکره‌های عظیم از پیش آموزش دیده، گرسنگی داده‌های آنها را جبران می‌کند.
انواع ترانسفورماتور کارآمد چیست؟
محققان انواع مختلفی از الگوریتم‌ها را برای کاهش هزینه‌های محاسباتی ترانسفورماتور توسعه داده‌اند، از جمله Linformer (توجه خطی)، Performer (توجه به ویژگی‌های تصادفی)، Longformer (توجه به پنجره کشویی) و Reformer (هشینگ حساس به محل). این رویکردها مقداری از دقت را با افزایش چشمگیر کارایی در توالی‌های طولانی معاوضه می‌کنند.
از کدام معماری باید برای تصویربرداری پزشکی استفاده کنم؟
به دلیل محدودیت مجموعه داده‌های برچسب‌گذاری شده و نیاز به نقشه‌های ویژگی قابل تفسیر، شبکه‌های عصبی کانولوشن (CNN) همچنان انتخاب غالب برای تصویربرداری پزشکی هستند. با این حال، ترانسفورماتورهای بینایی و مدل‌های ترکیبی، به ویژه برای کارهایی مانند تقسیم‌بندی تومور که در آن ثبت بافت بافت در فواصل دور اهمیت دارد، در حال افزایش محبوبیت هستند. بسیاری از مقالات اخیر نتایج رقابتی با رویکردهای مبتنی بر ترانسفورماتور را گزارش می‌دهند.
اگر ترانسفورماتورها برای متن طراحی شده‌اند، چگونه تصاویر را مدیریت می‌کنند؟
مبدل‌های بینایی، تصاویر را به تکه‌هایی با اندازه ثابت (معمولاً ۱۶x۱۶ پیکسل) تقسیم می‌کنند، هر تکه را به یک بردار تبدیل می‌کنند و با آنها مانند توکن‌های یک جمله رفتار می‌کنند. یک جاسازی موقعیتی آموخته‌شده، اطلاعات مکانی را حفظ می‌کند و رمزگذار مبدل استاندارد، توالی را پردازش می‌کند. این تطبیق ساده به طرز چشمگیری مؤثر بوده است.
آیا ترانسفورماتورها در نهایت به طور کامل جایگزین CNNها خواهند شد؟
احتمالاً در کوتاه‌مدت نه. هر معماری نقاط قوتی دارد که برای محدودیت‌های مختلف مناسب هستند و روند تحقیقات به سمت طرح‌های ترکیبی است که کارایی کانولوشن را با انعطاف‌پذیری توجه ترکیب می‌کنند. آینده احتمالاً متعلق به مدل‌هایی است که هوشمندانه هر دو رویکرد را بر اساس وظیفه و الزامات استقرار ترکیب می‌کنند.

حکم

وقتی به استنتاج کارآمد نیاز دارید، با داده‌های آموزشی محدود کار می‌کنید یا در محیط‌های با منابع محدود مانند دستگاه‌های تلفن همراه مستقر می‌شوید، معماری‌های مبتنی بر CNN را انتخاب کنید. هنگام کار با داده‌های ترتیبی، وظایف چندوجهی یا سناریوهایی که ثبت وابستگی‌های دوربرد و مقیاس‌بندی با محاسبات، افزایش دقت معناداری را ارائه می‌دهد، به سراغ مدل‌های ترانسفورماتور بروید.

مقایسه‌های مرتبط

LLM های مبتنی بر ابزار در مقابل LLM های مستقل

LLM های مبتنی بر ابزار، مدل‌های زبانی مستقل را با اتصال آنها به APIهای خارجی، ماشین‌حساب‌ها و پایگاه‌های داده گسترش می‌دهند و بازیابی اطلاعات و اجرای وظایف را در زمان واقعی امکان‌پذیر می‌سازند. LLM های مستقل صرفاً به پارامترهای آموزش‌دیده خود متکی هستند و آنها را مستقل اما محدود به دانش حاصل از داده‌های آموزشی می‌کنند.

LLM های متن باز در مقابل API های اختصاصی LLM

LLM های متن باز، مدل‌های هوش مصنوعی قابل تنظیم و خود-میزبان با دسترسی کامل به کد ارائه می‌دهند، در حالی که API های اختصاصی LLM، خدمات مدیریت شده و بهبود یافته را از طریق نقاط پایانی مبتنی بر ابر با قیمت گذاری مبتنی بر میزان استفاده ارائه می‌دهند.

RAG (تولید افزوده بازیابی) در مقابل LLM های تنظیم دقیق

RAG و LLM های تنظیم‌شده دقیق، هر دو کیفیت خروجی هوش مصنوعی را بهبود می‌بخشند، اما به روش‌های اساساً متفاوتی عمل می‌کنند. RAG اطلاعات خارجی را در زمان پرس‌وجو دریافت می‌کند، در حالی که تنظیم دقیق، دانش جدید را مستقیماً در وزن‌های مدل قرار می‌دهد. انتخاب بین آنها بستگی به این دارد که داده‌های شما چند وقت یکبار تغییر می‌کنند و به چه نوع دقتی نیاز دارید.

RAG با متن بصری در مقابل RAG با متن فقط متنی

RAG با زمینه بصری، مدل‌های زبانی را با بازیابی تصاویر، نمودارها و دیاگرام‌ها در کنار متن غنی می‌کند، در حالی که RAG فقط متنی صرفاً به متون نوشتاری متکی است. RAG بصری در وظایف چندوجهی مانند درک اسناد و پاسخ به سؤالات بصری برتری دارد، در حالی که RAG فقط متنی ساده‌تر، سریع‌تر و ارزان‌تر برای استقرار باقی می‌ماند.

RAG چندوجهی در مقابل RAG فقط متنی

RAG چندوجهی متن، تصاویر، صدا و ویدیو را برای بازیابی غنی‌تر با هم پردازش می‌کند، در حالی که RAG فقط متنی منحصراً بر محتوای نوشتاری تمرکز دارد. انتخاب بستگی به این دارد که آیا داده‌ها و موارد استفاده شما فراتر از اسناد متنی ساده است یا خیر.