این مقایسهی دقیق، تفاوتهای فنی و عملی بین آموزش مدلهای بینایی کامپیوتر با استفاده از تقویت تصویر در مقابل تکیهی صرف بر مجموعه دادههای خام را بررسی میکند و نشان میدهد که چگونه دستکاری دادهها بر تعمیم، بیشبرازش و هزینههای محاسبه تأثیر میگذارد.
برجستهها
افزایش به صورت مصنوعی مقیاس مجموعه دادهها را بدون هزینههای حاشیهنویسی مداوم، چند برابر میکند.
آموزش دادههای خام، وفاداری مطلق به توزیعهای محیطی دنیای واقعی را تضمین میکند.
تقویت تهاجمی میتواند برچسبهای معنایی را خراب کند و دادههای آموزشی را بیفایده جلوه دهد.
دور زدن تقویت، چرخههای حیاتی پردازنده را ذخیره میکند و سرعت پردازش دورههای زمانی (epoch) را افزایش میدهد.
تقویت تصویر چیست؟
تکنیک گسترش مصنوعی یک مجموعه داده با اعمال تبدیلهای تصادفی و حفظکننده اطلاعات بر روی تصاویر موجود.
این روش به طور چشمگیری تنوع مجموعه دادهها را بدون نیاز به جمعآوری نمونههای فیزیکی جدید افزایش میدهد.
تکنیکهای رایج شامل مقیاسبندی هندسی، چرخشها، تغییر رنگ، وارونه کردن و برش تصادفی است.
این به عنوان یک تنظیمکننده قدرتمند عمل میکند و تمایل شبکه عصبی به بیشبرازش را به میزان قابل توجهی کاهش میدهد.
روشهای پیشرفتهای مانند Mixup و CutMix چندین تصویر آموزشی را با هم ترکیب میکنند تا تغییرات کاملاً جدیدی ایجاد کنند.
میتوان آن را به صورت پویا در حافظه در طول حلقه آموزش انجام داد تا در فضای ذخیرهسازی صرفهجویی شود.
آموزش مجموعه دادههای خام چیست؟
عمل آموزش یک مدل یادگیری ماشین با استفاده از تصاویر منبع ویرایش نشده و بدون تغییر، دقیقاً همانطور که جمعآوری شدهاند.
این توزیع آماری واقعی و ارگانیک محیط دنیای واقعی هدف را حفظ میکند.
مدلها در هر دوره سریعتر آموزش میبینند زیرا هیچ سربار پردازشی از خطوط لوله تبدیل وجود ندارد.
این امر خطر ایجاد مصنوعات غیرواقعی یا برچسبهای نامعتبر از طریق تبدیلهای بد را از بین میبرد.
افزایش دقت در مقیاسبندی نیازمند منبعیابی، ثبت و برچسبگذاری دستی تصاویر فیزیکی کاملاً جدید است.
این یک معیار اندازهگیری عملکرد پایه تمیز برای ارزیابی تنظیمات معماری مدل ارائه میدهد.
جدول مقایسه
ویژگی
تقویت تصویر
آموزش مجموعه دادههای خام
کشش اندازه مجموعه دادهها
تقریباً نامتناهی از طریق ترکیبیات
کاملاً متناسب با تعداد فایلهای جمعآوریشده تنظیم شده است
کاهش بیشبرازش
زیاد؛ دائماً مدل را در معرض نماهای منحصر به فرد قرار میدهد
کم؛ مدل به راحتی پیکسلهای پسزمینه ثابت را به خاطر میسپارد
سربار CPU آموزش
به دلیل تبدیلهای آنی، متوسط تا زیاد
ناچیز؛ مستقیماً تانسورها را در حافظه بارگذاری میکند
خطر فساد معنایی
اگر تبدیلها برچسبهای حیاتی را تغییر دهند، ممکن است
هیچکدام؛ دادهها دقیقاً منعکسکنندهی تصاویر اولیه هستند
تعمیم در دنیای واقعی
عالی؛ مقاوم در برابر نور و تغییر زاویه
شکننده؛ به راحتی با تغییرات جزئی محیطی گیج میشود
هزینههای برچسبگذاری
بسیار مقرون به صرفه؛ از برچسبهای موجود دوباره استفاده میکند
گران است؛ برای هر نمونه جدید نیاز به حاشیهنویسی انسانی دارد
مقایسه دقیق
تعمیم و پایداری در تولید
استقرار یک مدل بینایی کامپیوتر در شرایط واقعی، آن را در معرض تغییرات غیرقابل پیشبینی در زوایای دوربین، تغییر سایهها و فریمبندی غیرمنتظره قرار میدهد. تقویت تصویر با معرفی عمدی این تغییرات در طول آموزش، شبکه را برای این هرج و مرج آماده میکند و مدل را مجبور میکند تا ویژگیهای اصلی ثابت را به جای موقعیتهای پیکسلی ثابت یاد بگیرد. در مقابل، آموزش مجموعه دادههای خام اغلب مدلهایی تولید میکند که روی کاغذ عالی به نظر میرسند، اما به محض اینکه دوربین کمی کج میشود یا ابری جلوی خورشید را میگیرد، شکست میخورند.
خط لوله محاسباتی و توان عملیاتی آموزش
انتخاب بین این گردشهای کاری، یک بدهبستان عملکردی متمایز را در بین اجزای سختافزاری ایجاد میکند. آموزش مجموعه دادههای خام، یک خط لوله داده سرراست ارائه میدهد که به درایو ذخیرهسازی اجازه میدهد تصاویر را مستقیماً و بدون دستکاری واسطه به GPU تغذیه کند. گنجاندن تقویت بلادرنگ، یک تنگنا برای CPU ایجاد میکند، زیرا پردازنده باید دائماً تانسورهای تصویر را در حال حرکت تغییر شکل، تغییر رنگ و برش دهد و گاهی اوقات کارتهای گرافیک رده بالا را در حالی که منتظر دسته تغییر یافته بعدی هستند، بیکار میگذارد.
خطر تخریب برچسب معنایی
اگرچه تغییر تصاویر به طور کلی مفید به نظر میرسد، اما خطوط لوله تقویت کنترل نشده میتوانند به طور تصادفی منطق اساسی یک مجموعه داده را خراب کنند. به عنوان مثال، اعمال چرخش ۱۸۰ درجهای به یک مجموعه داده الفبایی میتواند عدد «۶» را به «۹» تبدیل کند، یا برعکس کردن یک اسکن پزشکی ممکن است شاخصهای آناتومیکی نامتقارن را به اشتباه نمایش دهد. آموزش مجموعه داده خام به طور کامل از این توهمات الگوریتمی جلوگیری میکند و تضمین میکند که رابطه بین ویژگیهای بصری و برچسب حقیقت پایه اختصاص داده شده، بکر و دقیق باقی بماند.
هزینههای مهندسی داده و مقیاسپذیری
مقیاسبندی یک مدل بینایی کامپیوتر تنها با استفاده از دادههای خام، نیازمند سرمایه مالی و انسانی قابل توجهی برای تهیه، تمیز کردن و حاشیهنویسی دستی تصاویر جدید به طور مداوم است. تقویت تصویر به عنوان یک عامل تقویتکننده عظیم برای تیمهای کوچکتر عمل میکند و مجموعهای کوچک از هزاران تصویر را به یک کتابخانه جامع از تغییرات با هزینه کم تبدیل میکند. این گسترش مصنوعی، آموزش معماریهای عمیق را حتی زمانی که دسترسی به نمونههای فیزیکی منحصر به فرد به شدت محدود است، بسیار عملی میکند.
مزایا و معایب
تقویت تصویر
مزایا
+از بیشبرازش فاجعهبار مدل جلوگیری میکند
+هزینههای جمعآوری فیزیکی دادهها را کاهش میدهد
+دقت خارج از توزیع را بهبود میبخشد
+به راحتی کلاسهای کمنمایندگی را متعادل میکند
مصرف شده
−مصرف منابع CPU را افزایش میدهد
−میتواند تحریفات غیرواقعی ایجاد کند
−نیاز به تنظیم دقیق هایپرپارامتر خط لوله دارد
−جدول زمانی کلی آموزش را گسترش میدهد
آموزش مجموعه دادههای خام
مزایا
+بدون تأخیر در پردازش خط لوله داده
+ویژگیهای بصری بسیار اصیل را تضمین میکند
+از خرابی تصادفی برچسب جلوگیری میکند
+راهاندازی خط لوله ساده و قابل تکرار
مصرف شده
−بسیار آسیبپذیر در برابر بیشبرازش
−نیاز به تلاشهای گسترده برای برچسبگذاری دستی دارد
−در شرایط نوری متغیر از کار میافتد
−مستعد عدم تعادل شدید سوگیری در مجموعه دادهها
تصورات نادرست رایج
افسانه
تقویت تصویر، نیاز به جمعآوری دادههای جدید را کاملاً از بین میبرد.
واقعیت
تقویت صرفاً ویژگیهای موجود را از زوایای جدید آشکار میکند؛ اما نمیتواند اطلاعات اساساً جدیدی را ارائه دهد. اگر یک مدل پزشکی هرگز نوع خاصی از تومور نادر را ندیده باشد، اسکنهای چرخشی بافت سالم هرگز به آن یاد نمیدهد که آن آسیبشناسی را تشخیص دهد.
افسانه
به کارگیری هر تکنیک تقویت موجود، همیشه یک مدل برتر را به دست میدهد.
واقعیت
تبدیلهای بیهدف میتوانند بهطور فعال عملکرد شبکه عصبی را کاهش دهند. تزریق اعوجاج شدید رنگ به برنامهای که برای طبقهبندی انواع خاک یا رسیدن میوه طراحی شده است، نشانههای رنگی حیاتی برای طبقهبندی دقیق را از بین میبرد.
افسانه
آموزش مجموعه دادههای خام در سیستمهای بینایی کامپیوتر مدرن منسوخ شده است.
واقعیت
دادههای خام برای ایجاد معیارهای پایه و انجام وظایف بسیار دقیق مانند بازرسی ماهواره یا تشخیص نقص نیمههادیها همچنان حیاتی هستند. در این زمینهها، کوچکترین تاری یا اعوجاج کالیبره نشده میتواند ناهنجاریهای کوچک را بپوشاند.
افسانه
تصاویر افزوده شده باید قبل از شروع آموزش روی هارد دیسک ذخیره شوند.
واقعیت
خطوط لوله یادگیری عمیق مدرن، همزمان با اجرای حلقه آموزش، به صورت پویا در حافظه سیستم، عملیات افزایش داده را انجام میدهند. این فرآیند آنلاین، نیازهای ذخیرهسازی را پایین نگه میدارد، زیرا تغییرات تبدیلشده به محض اتمام مرحله آموزش ناپدید میشوند.
سوالات متداول
تفاوت بین بزرگنمایی تصویر آفلاین و آنلاین دقیقاً چیست؟
تقویت آفلاین، فایلهای منبع شما را قبل از شروع آموزش تغییر میدهد، کپیها را مستقیماً در هارد دیسک شما ذخیره میکند و کل نیازهای ذخیرهسازی را افزایش میدهد. تقویت آنلاین این تغییرات را به صورت پویا در حافظه سیستم اعمال میکند، زیرا دستهها در GPU بارگذاری میشوند. پردازش آنلاین تضمین میکند که مدل به ندرت پیکربندی تصویر یکسانی را دو بار میبیند و منظمسازی را بدون هدر دادن فضای دیسک به حداکثر میرساند.
آیا تقویت تصویر میتواند یک مدل را در برابر آسیبپذیریهای خصمانه آسیبپذیر کند؟
اگر تقویتهای اولیه به درستی مدیریت شوند، در واقع با هموار کردن مرزهای تصمیمگیری ناهموار، فریب دادن مدلها را دشوارتر میکنند. با این حال، تبدیلهای ضعیف انتخاب شده میتوانند گاهی اوقات الگوهای مصنوعی ظریفی را ایجاد کنند که شبیه نویز هستند. اگر مدلی برای پیشبینی به این مصنوعات عجیب تکیه کند، میتواند شبکه را در معرض حملات خصمانه قرار دهد.
تعیین ایمنی تبدیل نیازمند تجزیه و تحلیل قوانین اصلی حوزه خاص شماست. اگر تغییرات در جهتگیری، نورپردازی یا پالت رنگ، یک متخصص انسانی را که نمونه را مشاهده میکند، گیج کند، آن تبدیلهای خاص باید حذف شوند. مهندسان قبل از شروع یک دوره آموزشی کامل، این انتخابها را با ممیزی بصری دستههای تصاویر افزوده شده، اعتبارسنجی میکنند.
آیا اتکای کامل به یک مجموعه داده خام، عمق یک شبکه عصبی را محدود میکند؟
بله، این محدودیت ساختاری ایجاد میکند زیرا شبکههای عمیق و پیچیده برای جلوگیری از بیشبرازش میلیونها پارامتر خود به مجموعه دادههای عظیمی نیاز دارند. آموزش یک معماری بیشپارامتری روی یک مجموعه داده خام کوچک و بدون تقویت باعث میشود شبکه نمونههای منفرد را به خاطر بسپارد. اگر نمیتوانید مجموعه دادههای خام خود را گسترش دهید، باید از معماریهای کوچکتری برای حفظ تعمیمپذیری استفاده کنید.
Mixup و CutMix چیستند و چه تفاوتی با برش یا برعکس کردن سادهی تصویر دارند؟
روشهای استانداردی مانند برش یا وارونه کردن، طرحبندی فضایی یا ماتریس رنگ یک تصویر واحد را تنظیم میکنند. Mixup دو تصویر کاملاً مجزا و برچسبهای آنها را به صورت خطی با هم ترکیب میکند و یک جلوه پوششی شفاف ایجاد میکند. CutMix یک تکه فیزیکی از یک تصویر را برش داده و مستقیماً روی تصویر دیگر میچسباند و شبکه را مجبور میکند تا اشیاء را با استفاده از سرنخهای زمینهای محدود شناسایی کند.
آیا تقویت تصویر به رفع عدم تعادل شدید کلاسها در یک مجموعه داده کمک میکند؟
این به عنوان ابزاری بسیار مؤثر برای پایدارسازی مجموعه دادههای نامتوازن عمل میکند. با اعمال انتخابی تبدیلهای تهاجمی منحصراً بر روی کلاسهای اقلیت کمتر نمایش داده شده، میتوانید جریان آموزش را بدون تکرار تصاویر یکسان متعادل کنید. این نوردهی متعادل تضمین میکند که تابع زیان مدل در طول پسانتشار، با کلاسهای اقلیت با وزن برابر رفتار میکند.
آیا تقویت میتواند باعث شود که همگرایی یک اجرای آموزش شبکه عصبی بیشتر طول بکشد؟
از آنجا که مدل با انواع بیپایانی از ورودیهای آموزشی تغییر یافته مواجه است، منحنی تلفات معمولاً بسیار کندتر از زمانی که یک مجموعه داده خام قابل پیشبینی است، پایین میآید. در حالی که این رفتار تعداد کل دورههای آموزشی مورد نیاز برای رسیدن به ثبات را افزایش میدهد، مدل حاصل دقت اعتبارسنجی و عملکرد دنیای واقعی بسیار بهتری را نشان میدهد.
چگونه ارزیابی میکنید که آیا یک مجموعه داده خام به اندازه کافی بزرگ است که بتوان از تقویت دادهها به طور کامل صرف نظر کرد؟
میتوانید این را با رسم منحنیهای آموزش و اعتبارسنجی در کنار یکدیگر بررسی کنید. اگر خطای اعتبارسنجی شما بدون وقفه، مسیر نزدیکی با خطای آموزش داشته باشد، مجموعه داده خام شما احتمالاً تنوع طبیعی کافی را ارائه میدهد. هنگامی که خطای اعتبارسنجی افزایش مییابد در حالی که خطای آموزش کاهش مییابد، نشان دهنده نیاز آشکار به تقویت یا دادههای بیشتر است.
حکم
از تقویت تصویر به عنوان یک استراتژی پیشفرض برای تقریباً تمام وظایف بینایی یادگیری عمیق استفاده کنید تا تعمیم مدل را به حداکثر برسانید و هزینههای جمعآوری دادهها را کاهش دهید. زمانی که دامنه استقرار خاص شما یک محیط کاملاً ایستا و کنترلشده ارائه میدهد، یا زمانی که رنگهای دقیق پیکسلها و جهتگیریهای مکانی دارای معانی معنایی شکنندهای هستند که تبدیلهای خودکار آنها را خراب میکنند، اکیداً به آموزش مجموعه دادههای خام پایبند باشید.