Comparthing Logo
بینایی کامپیوترمهندسی دادهیادگیری عمیقآموزش مدل

تقویت تصویر در مقابل آموزش مجموعه داده‌های خام

این مقایسه‌ی دقیق، تفاوت‌های فنی و عملی بین آموزش مدل‌های بینایی کامپیوتر با استفاده از تقویت تصویر در مقابل تکیه‌ی صرف بر مجموعه داده‌های خام را بررسی می‌کند و نشان می‌دهد که چگونه دستکاری داده‌ها بر تعمیم، بیش‌برازش و هزینه‌های محاسبه تأثیر می‌گذارد.

برجسته‌ها

  • افزایش به صورت مصنوعی مقیاس مجموعه داده‌ها را بدون هزینه‌های حاشیه‌نویسی مداوم، چند برابر می‌کند.
  • آموزش داده‌های خام، وفاداری مطلق به توزیع‌های محیطی دنیای واقعی را تضمین می‌کند.
  • تقویت تهاجمی می‌تواند برچسب‌های معنایی را خراب کند و داده‌های آموزشی را بی‌فایده جلوه دهد.
  • دور زدن تقویت، چرخه‌های حیاتی پردازنده را ذخیره می‌کند و سرعت پردازش دوره‌های زمانی (epoch) را افزایش می‌دهد.

تقویت تصویر چیست؟

تکنیک گسترش مصنوعی یک مجموعه داده با اعمال تبدیل‌های تصادفی و حفظ‌کننده اطلاعات بر روی تصاویر موجود.

  • این روش به طور چشمگیری تنوع مجموعه داده‌ها را بدون نیاز به جمع‌آوری نمونه‌های فیزیکی جدید افزایش می‌دهد.
  • تکنیک‌های رایج شامل مقیاس‌بندی هندسی، چرخش‌ها، تغییر رنگ، وارونه کردن و برش تصادفی است.
  • این به عنوان یک تنظیم‌کننده قدرتمند عمل می‌کند و تمایل شبکه عصبی به بیش‌برازش را به میزان قابل توجهی کاهش می‌دهد.
  • روش‌های پیشرفته‌ای مانند Mixup و CutMix چندین تصویر آموزشی را با هم ترکیب می‌کنند تا تغییرات کاملاً جدیدی ایجاد کنند.
  • می‌توان آن را به صورت پویا در حافظه در طول حلقه آموزش انجام داد تا در فضای ذخیره‌سازی صرفه‌جویی شود.

آموزش مجموعه داده‌های خام چیست؟

عمل آموزش یک مدل یادگیری ماشین با استفاده از تصاویر منبع ویرایش نشده و بدون تغییر، دقیقاً همانطور که جمع‌آوری شده‌اند.

  • این توزیع آماری واقعی و ارگانیک محیط دنیای واقعی هدف را حفظ می‌کند.
  • مدل‌ها در هر دوره سریع‌تر آموزش می‌بینند زیرا هیچ سربار پردازشی از خطوط لوله تبدیل وجود ندارد.
  • این امر خطر ایجاد مصنوعات غیرواقعی یا برچسب‌های نامعتبر از طریق تبدیل‌های بد را از بین می‌برد.
  • افزایش دقت در مقیاس‌بندی نیازمند منبع‌یابی، ثبت و برچسب‌گذاری دستی تصاویر فیزیکی کاملاً جدید است.
  • این یک معیار اندازه‌گیری عملکرد پایه تمیز برای ارزیابی تنظیمات معماری مدل ارائه می‌دهد.

جدول مقایسه

ویژگی تقویت تصویر آموزش مجموعه داده‌های خام
کشش اندازه مجموعه داده‌ها تقریباً نامتناهی از طریق ترکیبیات کاملاً متناسب با تعداد فایل‌های جمع‌آوری‌شده تنظیم شده است
کاهش بیش‌برازش زیاد؛ دائماً مدل را در معرض نماهای منحصر به فرد قرار می‌دهد کم؛ مدل به راحتی پیکسل‌های پس‌زمینه ثابت را به خاطر می‌سپارد
سربار CPU آموزش به دلیل تبدیل‌های آنی، متوسط تا زیاد ناچیز؛ مستقیماً تانسورها را در حافظه بارگذاری می‌کند
خطر فساد معنایی اگر تبدیل‌ها برچسب‌های حیاتی را تغییر دهند، ممکن است هیچکدام؛ داده‌ها دقیقاً منعکس‌کننده‌ی تصاویر اولیه هستند
تعمیم در دنیای واقعی عالی؛ مقاوم در برابر نور و تغییر زاویه شکننده؛ به راحتی با تغییرات جزئی محیطی گیج می‌شود
هزینه‌های برچسب‌گذاری بسیار مقرون به صرفه؛ از برچسب‌های موجود دوباره استفاده می‌کند گران است؛ برای هر نمونه جدید نیاز به حاشیه‌نویسی انسانی دارد

مقایسه دقیق

تعمیم و پایداری در تولید

استقرار یک مدل بینایی کامپیوتر در شرایط واقعی، آن را در معرض تغییرات غیرقابل پیش‌بینی در زوایای دوربین، تغییر سایه‌ها و فریم‌بندی غیرمنتظره قرار می‌دهد. تقویت تصویر با معرفی عمدی این تغییرات در طول آموزش، شبکه را برای این هرج و مرج آماده می‌کند و مدل را مجبور می‌کند تا ویژگی‌های اصلی ثابت را به جای موقعیت‌های پیکسلی ثابت یاد بگیرد. در مقابل، آموزش مجموعه داده‌های خام اغلب مدل‌هایی تولید می‌کند که روی کاغذ عالی به نظر می‌رسند، اما به محض اینکه دوربین کمی کج می‌شود یا ابری جلوی خورشید را می‌گیرد، شکست می‌خورند.

خط لوله محاسباتی و توان عملیاتی آموزش

انتخاب بین این گردش‌های کاری، یک بده‌بستان عملکردی متمایز را در بین اجزای سخت‌افزاری ایجاد می‌کند. آموزش مجموعه داده‌های خام، یک خط لوله داده سرراست ارائه می‌دهد که به درایو ذخیره‌سازی اجازه می‌دهد تصاویر را مستقیماً و بدون دستکاری واسطه به GPU تغذیه کند. گنجاندن تقویت بلادرنگ، یک تنگنا برای CPU ایجاد می‌کند، زیرا پردازنده باید دائماً تانسورهای تصویر را در حال حرکت تغییر شکل، تغییر رنگ و برش دهد و گاهی اوقات کارت‌های گرافیک رده بالا را در حالی که منتظر دسته تغییر یافته بعدی هستند، بیکار می‌گذارد.

خطر تخریب برچسب معنایی

اگرچه تغییر تصاویر به طور کلی مفید به نظر می‌رسد، اما خطوط لوله تقویت کنترل نشده می‌توانند به طور تصادفی منطق اساسی یک مجموعه داده را خراب کنند. به عنوان مثال، اعمال چرخش ۱۸۰ درجه‌ای به یک مجموعه داده الفبایی می‌تواند عدد «۶» را به «۹» تبدیل کند، یا برعکس کردن یک اسکن پزشکی ممکن است شاخص‌های آناتومیکی نامتقارن را به اشتباه نمایش دهد. آموزش مجموعه داده خام به طور کامل از این توهمات الگوریتمی جلوگیری می‌کند و تضمین می‌کند که رابطه بین ویژگی‌های بصری و برچسب حقیقت پایه اختصاص داده شده، بکر و دقیق باقی بماند.

هزینه‌های مهندسی داده و مقیاس‌پذیری

مقیاس‌بندی یک مدل بینایی کامپیوتر تنها با استفاده از داده‌های خام، نیازمند سرمایه مالی و انسانی قابل توجهی برای تهیه، تمیز کردن و حاشیه‌نویسی دستی تصاویر جدید به طور مداوم است. تقویت تصویر به عنوان یک عامل تقویت‌کننده عظیم برای تیم‌های کوچک‌تر عمل می‌کند و مجموعه‌ای کوچک از هزاران تصویر را به یک کتابخانه جامع از تغییرات با هزینه کم تبدیل می‌کند. این گسترش مصنوعی، آموزش معماری‌های عمیق را حتی زمانی که دسترسی به نمونه‌های فیزیکی منحصر به فرد به شدت محدود است، بسیار عملی می‌کند.

مزایا و معایب

تقویت تصویر

مزایا

  • + از بیش‌برازش فاجعه‌بار مدل جلوگیری می‌کند
  • + هزینه‌های جمع‌آوری فیزیکی داده‌ها را کاهش می‌دهد
  • + دقت خارج از توزیع را بهبود می‌بخشد
  • + به راحتی کلاس‌های کم‌نمایندگی را متعادل می‌کند

مصرف شده

  • مصرف منابع CPU را افزایش می‌دهد
  • می‌تواند تحریفات غیرواقعی ایجاد کند
  • نیاز به تنظیم دقیق هایپرپارامتر خط لوله دارد
  • جدول زمانی کلی آموزش را گسترش می‌دهد

آموزش مجموعه داده‌های خام

مزایا

  • + بدون تأخیر در پردازش خط لوله داده
  • + ویژگی‌های بصری بسیار اصیل را تضمین می‌کند
  • + از خرابی تصادفی برچسب جلوگیری می‌کند
  • + راه‌اندازی خط لوله ساده و قابل تکرار

مصرف شده

  • بسیار آسیب‌پذیر در برابر بیش‌برازش
  • نیاز به تلاش‌های گسترده برای برچسب‌گذاری دستی دارد
  • در شرایط نوری متغیر از کار می‌افتد
  • مستعد عدم تعادل شدید سوگیری در مجموعه داده‌ها

تصورات نادرست رایج

افسانه

تقویت تصویر، نیاز به جمع‌آوری داده‌های جدید را کاملاً از بین می‌برد.

واقعیت

تقویت صرفاً ویژگی‌های موجود را از زوایای جدید آشکار می‌کند؛ اما نمی‌تواند اطلاعات اساساً جدیدی را ارائه دهد. اگر یک مدل پزشکی هرگز نوع خاصی از تومور نادر را ندیده باشد، اسکن‌های چرخشی بافت سالم هرگز به آن یاد نمی‌دهد که آن آسیب‌شناسی را تشخیص دهد.

افسانه

به کارگیری هر تکنیک تقویت موجود، همیشه یک مدل برتر را به دست می‌دهد.

واقعیت

تبدیل‌های بی‌هدف می‌توانند به‌طور فعال عملکرد شبکه عصبی را کاهش دهند. تزریق اعوجاج شدید رنگ به برنامه‌ای که برای طبقه‌بندی انواع خاک یا رسیدن میوه طراحی شده است، نشانه‌های رنگی حیاتی برای طبقه‌بندی دقیق را از بین می‌برد.

افسانه

آموزش مجموعه داده‌های خام در سیستم‌های بینایی کامپیوتر مدرن منسوخ شده است.

واقعیت

داده‌های خام برای ایجاد معیارهای پایه و انجام وظایف بسیار دقیق مانند بازرسی ماهواره یا تشخیص نقص نیمه‌هادی‌ها همچنان حیاتی هستند. در این زمینه‌ها، کوچکترین تاری یا اعوجاج کالیبره نشده می‌تواند ناهنجاری‌های کوچک را بپوشاند.

افسانه

تصاویر افزوده شده باید قبل از شروع آموزش روی هارد دیسک ذخیره شوند.

واقعیت

خطوط لوله یادگیری عمیق مدرن، همزمان با اجرای حلقه آموزش، به صورت پویا در حافظه سیستم، عملیات افزایش داده را انجام می‌دهند. این فرآیند آنلاین، نیازهای ذخیره‌سازی را پایین نگه می‌دارد، زیرا تغییرات تبدیل‌شده به محض اتمام مرحله آموزش ناپدید می‌شوند.

سوالات متداول

تفاوت بین بزرگنمایی تصویر آفلاین و آنلاین دقیقاً چیست؟
تقویت آفلاین، فایل‌های منبع شما را قبل از شروع آموزش تغییر می‌دهد، کپی‌ها را مستقیماً در هارد دیسک شما ذخیره می‌کند و کل نیازهای ذخیره‌سازی را افزایش می‌دهد. تقویت آنلاین این تغییرات را به صورت پویا در حافظه سیستم اعمال می‌کند، زیرا دسته‌ها در GPU بارگذاری می‌شوند. پردازش آنلاین تضمین می‌کند که مدل به ندرت پیکربندی تصویر یکسانی را دو بار می‌بیند و منظم‌سازی را بدون هدر دادن فضای دیسک به حداکثر می‌رساند.
آیا تقویت تصویر می‌تواند یک مدل را در برابر آسیب‌پذیری‌های خصمانه آسیب‌پذیر کند؟
اگر تقویت‌های اولیه به درستی مدیریت شوند، در واقع با هموار کردن مرزهای تصمیم‌گیری ناهموار، فریب دادن مدل‌ها را دشوارتر می‌کنند. با این حال، تبدیل‌های ضعیف انتخاب شده می‌توانند گاهی اوقات الگوهای مصنوعی ظریفی را ایجاد کنند که شبیه نویز هستند. اگر مدلی برای پیش‌بینی به این مصنوعات عجیب تکیه کند، می‌تواند شبکه را در معرض حملات خصمانه قرار دهد.
توسعه‌دهندگان چگونه تصمیم می‌گیرند که پیاده‌سازی کدام تبدیل‌های تصویر ایمن است؟
تعیین ایمنی تبدیل نیازمند تجزیه و تحلیل قوانین اصلی حوزه خاص شماست. اگر تغییرات در جهت‌گیری، نورپردازی یا پالت رنگ، یک متخصص انسانی را که نمونه را مشاهده می‌کند، گیج کند، آن تبدیل‌های خاص باید حذف شوند. مهندسان قبل از شروع یک دوره آموزشی کامل، این انتخاب‌ها را با ممیزی بصری دسته‌های تصاویر افزوده شده، اعتبارسنجی می‌کنند.
آیا اتکای کامل به یک مجموعه داده خام، عمق یک شبکه عصبی را محدود می‌کند؟
بله، این محدودیت ساختاری ایجاد می‌کند زیرا شبکه‌های عمیق و پیچیده برای جلوگیری از بیش‌برازش میلیون‌ها پارامتر خود به مجموعه داده‌های عظیمی نیاز دارند. آموزش یک معماری بیش‌پارامتری روی یک مجموعه داده خام کوچک و بدون تقویت باعث می‌شود شبکه نمونه‌های منفرد را به خاطر بسپارد. اگر نمی‌توانید مجموعه داده‌های خام خود را گسترش دهید، باید از معماری‌های کوچک‌تری برای حفظ تعمیم‌پذیری استفاده کنید.
Mixup و CutMix چیستند و چه تفاوتی با برش یا برعکس کردن ساده‌ی تصویر دارند؟
روش‌های استانداردی مانند برش یا وارونه کردن، طرح‌بندی فضایی یا ماتریس رنگ یک تصویر واحد را تنظیم می‌کنند. Mixup دو تصویر کاملاً مجزا و برچسب‌های آنها را به صورت خطی با هم ترکیب می‌کند و یک جلوه پوششی شفاف ایجاد می‌کند. CutMix یک تکه فیزیکی از یک تصویر را برش داده و مستقیماً روی تصویر دیگر می‌چسباند و شبکه را مجبور می‌کند تا اشیاء را با استفاده از سرنخ‌های زمینه‌ای محدود شناسایی کند.
آیا تقویت تصویر به رفع عدم تعادل شدید کلاس‌ها در یک مجموعه داده کمک می‌کند؟
این به عنوان ابزاری بسیار مؤثر برای پایدارسازی مجموعه داده‌های نامتوازن عمل می‌کند. با اعمال انتخابی تبدیل‌های تهاجمی منحصراً بر روی کلاس‌های اقلیت کمتر نمایش داده شده، می‌توانید جریان آموزش را بدون تکرار تصاویر یکسان متعادل کنید. این نوردهی متعادل تضمین می‌کند که تابع زیان مدل در طول پس‌انتشار، با کلاس‌های اقلیت با وزن برابر رفتار می‌کند.
آیا تقویت می‌تواند باعث شود که همگرایی یک اجرای آموزش شبکه عصبی بیشتر طول بکشد؟
از آنجا که مدل با انواع بی‌پایانی از ورودی‌های آموزشی تغییر یافته مواجه است، منحنی تلفات معمولاً بسیار کندتر از زمانی که یک مجموعه داده خام قابل پیش‌بینی است، پایین می‌آید. در حالی که این رفتار تعداد کل دوره‌های آموزشی مورد نیاز برای رسیدن به ثبات را افزایش می‌دهد، مدل حاصل دقت اعتبارسنجی و عملکرد دنیای واقعی بسیار بهتری را نشان می‌دهد.
چگونه ارزیابی می‌کنید که آیا یک مجموعه داده خام به اندازه کافی بزرگ است که بتوان از تقویت داده‌ها به طور کامل صرف نظر کرد؟
می‌توانید این را با رسم منحنی‌های آموزش و اعتبارسنجی در کنار یکدیگر بررسی کنید. اگر خطای اعتبارسنجی شما بدون وقفه، مسیر نزدیکی با خطای آموزش داشته باشد، مجموعه داده خام شما احتمالاً تنوع طبیعی کافی را ارائه می‌دهد. هنگامی که خطای اعتبارسنجی افزایش می‌یابد در حالی که خطای آموزش کاهش می‌یابد، نشان دهنده نیاز آشکار به تقویت یا داده‌های بیشتر است.

حکم

از تقویت تصویر به عنوان یک استراتژی پیش‌فرض برای تقریباً تمام وظایف بینایی یادگیری عمیق استفاده کنید تا تعمیم مدل را به حداکثر برسانید و هزینه‌های جمع‌آوری داده‌ها را کاهش دهید. زمانی که دامنه استقرار خاص شما یک محیط کاملاً ایستا و کنترل‌شده ارائه می‌دهد، یا زمانی که رنگ‌های دقیق پیکسل‌ها و جهت‌گیری‌های مکانی دارای معانی معنایی شکننده‌ای هستند که تبدیل‌های خودکار آنها را خراب می‌کنند، اکیداً به آموزش مجموعه داده‌های خام پایبند باشید.

مقایسه‌های مرتبط

LLM های مبتنی بر ابزار در مقابل LLM های مستقل

LLM های مبتنی بر ابزار، مدل‌های زبانی مستقل را با اتصال آنها به APIهای خارجی، ماشین‌حساب‌ها و پایگاه‌های داده گسترش می‌دهند و بازیابی اطلاعات و اجرای وظایف را در زمان واقعی امکان‌پذیر می‌سازند. LLM های مستقل صرفاً به پارامترهای آموزش‌دیده خود متکی هستند و آنها را مستقل اما محدود به دانش حاصل از داده‌های آموزشی می‌کنند.

LLM های متن باز در مقابل API های اختصاصی LLM

LLM های متن باز، مدل‌های هوش مصنوعی قابل تنظیم و خود-میزبان با دسترسی کامل به کد ارائه می‌دهند، در حالی که API های اختصاصی LLM، خدمات مدیریت شده و بهبود یافته را از طریق نقاط پایانی مبتنی بر ابر با قیمت گذاری مبتنی بر میزان استفاده ارائه می‌دهند.

RAG (تولید افزوده بازیابی) در مقابل LLM های تنظیم دقیق

RAG و LLM های تنظیم‌شده دقیق، هر دو کیفیت خروجی هوش مصنوعی را بهبود می‌بخشند، اما به روش‌های اساساً متفاوتی عمل می‌کنند. RAG اطلاعات خارجی را در زمان پرس‌وجو دریافت می‌کند، در حالی که تنظیم دقیق، دانش جدید را مستقیماً در وزن‌های مدل قرار می‌دهد. انتخاب بین آنها بستگی به این دارد که داده‌های شما چند وقت یکبار تغییر می‌کنند و به چه نوع دقتی نیاز دارید.

RAG با متن بصری در مقابل RAG با متن فقط متنی

RAG با زمینه بصری، مدل‌های زبانی را با بازیابی تصاویر، نمودارها و دیاگرام‌ها در کنار متن غنی می‌کند، در حالی که RAG فقط متنی صرفاً به متون نوشتاری متکی است. RAG بصری در وظایف چندوجهی مانند درک اسناد و پاسخ به سؤالات بصری برتری دارد، در حالی که RAG فقط متنی ساده‌تر، سریع‌تر و ارزان‌تر برای استقرار باقی می‌ماند.

RAG چندوجهی در مقابل RAG فقط متنی

RAG چندوجهی متن، تصاویر، صدا و ویدیو را برای بازیابی غنی‌تر با هم پردازش می‌کند، در حالی که RAG فقط متنی منحصراً بر محتوای نوشتاری تمرکز دارد. انتخاب بستگی به این دارد که آیا داده‌ها و موارد استفاده شما فراتر از اسناد متنی ساده است یا خیر.